PREDIÇÃO DE PROPRIEDADES MECÂNICAS DE AÇOS DE ALTA RESISTÊNCIA MICROLIGADOS UTILIZANDO TÉCNICAS DE INTELIGÊNCIA COMPUTACIONAL. Hiroshi Jorge Takahashi

Transcrição

1 PROGRAMA DE PÓS GRADUAÇÃO EM ENGENHARIA PREDIÇÃO DE PROPRIEDADES MECÂNICAS DE AÇOS DE ALTA RESISTÊNCIA MICROLIGADOS UTILIZANDO TÉCNICAS DE INTELIGÊNCIA COMPUTACIONAL Hiroshi Jorge Takahashi Dissertação submetida à banca examinadora designada pelo Colegiado do Programa de Pós-Graduação em Engenharia do Centro Universitário do Leste de Minas Gerais, como parte dos requisitos necessários à obtenção do grau de Mestre em Engenharia Industrial. Área de Concentração: Processos Industriais Orientador: Dr. Roselito de Albuquerque Teixeira Coronel Fabriciano, Dezembro de 2006

2 PROGRAMA DE PÓS GRADUAÇÃO EM ENGENHARIA PREDIÇÃO DE PROPRIEDADES MECÂNICAS DE AÇOS DE ALTA RESISTÊNCIA MICROLIGADOS UTILIZANDO TÉCNICAS DE INTELIGÊNCIA COMPUTACIONAL Hiroshi Jorge Takahashi Banca: Prof. Roselito de Albuquerque Teixeira, Dr. - PPGE/Unileste-MG - Orientador. Prof. Walmir Matos Caminhas, Dr. - PPGEE/UFMG. Prof. Túlio Magno Füzessy de Melo, Dr. - USIMINAS. Prof a. Andréa Oliveira Souza da Costa, Dr. - PPGE/Unileste-MG.

3 Quebra-galho À Tânia, Denise e Isabela

4 Agradecimentos Agradeço a Tânia; minha esposa, amiga, auto-astral, incentivadora de primeira hora, meu "porto seguro"; e a Denise e Isabela, pelo amor, compreensão e por simplesmente existirem em minha vida. Agradeço também a Tia Taninha, que acolheu nossa família tornando-se a sua. Agradeço aos meus pais pelo exemplo, pela valorização do conhecimento e por toda dedicação e suporte a mim dispensados. Aos meus irmãos Hiroko, Hissashi, Hiroito e Hideko, cada um em sua "distância", torcedores incondicionais e participantes de todas as batalhas. Agradeço aos professores Roselito de Albuquerque Teixeira e Marcelo Vieira Corrêa, companheiros de longa data, pela amizade, atenção, confiança, apoio durante todo o curso e pela perseverança em implantar o Programa de Pós graduação em Engenharia no Unileste. Em especial ao Prof. Roselito de Albuquerque Teixeira, meu orientador neste trabalho, pela competência, dedicação, presteza, discussões e precisão nos comentários. Agradeço aos professores Andréa, Elsy e Figueiredo, pela dedicação e contribuição para consolidação do programa. Agradeço aos colegas da equipe de automação da laminação a frio que através do convívio nos permitem crescer enquanto pessoas e conhecermos melhor a nós mesmos, em especial ao Flávio e Wanderley, pelas palavras de incentivo diário e ao Cid pelas longas discussões e troca de experiências. Agradeço também ao Bruno e Gláucio pelas discussões e preciosas contribuições para esse trabalho. Agradeço a todos os colegas do mestrado pela união em torno de um objetivo comum, fazendo com que o fardo parecesse mais leve, em especial, Aline, Belini, Custódio, Marluce, Nilton, Leonardo, Rodrigo, "Ronaldos", Souza e Tavares. Agradeço ao Flávio Granato pela contribuição dada na elaboração das figuras. À USIMINAS - Usinas Siderúrgicas de Minas Gerais, pela oportunidade, confiança e apoio necessários à participação no curso e ao desenvolvimento do trabalho. Agradeço a Deus pela vida!

5 Quebra-galho "A mente que se abre a uma nova idéia jamais voltará ao seu tamanho original." Albert Einstein

6 Resumo Este trabalho apresenta o estudo e a aplicação de técnicas de inteligência computacional para predição de propriedades mecânicas de aços, quais sejam, Limite de Escoamento, Limite de Resistência e Alongamento. São investigadas as técnicas de Redes Neurais Artificiais e Sistemas Híbridos Neuro-fuzzy. São apresentados procedimentos para o pré-processamento dos dados de entrada, incluindo a identificação automática de outiliers em bases de dados multivariáveis e a redução da dimensionalidade através da análise de componentes principais. É detalhado o projeto de Redes neurais artificiais do tipo Multilayer Perceptron treinadas com o algoritmo Backpropagation e são aplicadas estratégias para elevar a capacidade de generalização como Early Stopping, Pruning e Regularização Bayesiana. Visando melhorar o desempenho, a robustez e também a capacidade de generalização das Redes Neurais Artificiais o método de Ensemble Modelling também é empregado. É implementada a análise de sensibilidade das saídas do "modelo neural" em relação às variáveis de entrada. Para tornar viável a implementação de sistemas Neuro-Fuzzy com elevado número de entradas foram investigadas técnicas de clusterização dos dados de entrada e aplicado o método subtractive clustering. São aplicadas também as técnicas forward selection e backward selection para seleção das variáveis de entrada mais importantes para a modelagem utilizando sistemas híbridos Neurofuzzy, e é proposta uma nova alternativa para seleção das variáveis mais importantes combinando a análise de sensibilidade da RNA com o método forward selection. Os bons resultados obtidos com a aplicação de ambas as técnicas, usando dados reais de processo, mostram que tanto as Redes Neurais Artificiais quanto os Sistemas Híbridos Neurofuzzy apresentam condições de serem implementados em ambiente de produção para a predição de propriedades mecânicas de aços HSLA.

7 No trabalho é apresentada uma ferramenta para predição de propriedades mecânicas de aços HSLA, desenvolvida em ambiente Windows e disponibilizada para testes em ambiente industrial, cujos resultados têm sido considerados pelos especialistas como coerentes e promissores. v

8 Abstract This work presents the application of Computational Intelligence Methods for the prediction of mechanical properties, yield strength, tensile strength and elongation, of strip steel. Neural networks and hybrid neuro-fuzzy modelling techniques are investigated. Some tools for input data pre-processing are presented, including automatic identification of multivariate outliers and principal components analysis. The design of Multilayer Perceptrons (MLPs) neural network trained with back-propagation algorithm is detailed including methods for improving generalization of (MLPs), such as Early Stopping, Pruning and Bayesian Regularization. Ensemble Modelling method was applied in order to improve performance, robustness and also generalization of neural networks. An empirical method for determining the neural model output s sensitivity to its inputs is implemented. Clustering techniques were investigated to allow the implementation of a hybrid neurofuzzy model, since the number of inputs is not small and subtractive clustering was adopted. Methods for selecting the most important set of input variables when building a neuro-fuzzy model, forward selection e backward selection were tested, and a new approach combining sensitivity of the neural model and forward selection is proposed. The results achieved using actual process data show that both methods, Artificial Neural Networks and Hybrid Neuro-fuzzy, present good performance for the problem solution and they are in condition to be tested in a real industrial steel production environment. A tool for mechanical properties prediction was developed in Windows environment for industrial use and the initial results has been considered by the metallurgists coherent and promising.

9 Sumário 1 Introdução Motivação Objetivos Organização do Texto Métodos de Inteligência Computacional Introdução Sistemas de inferência nebulosa Conjuntos clássicos Conjuntos nebulosos Regras Se-Então e sistemas de inferência nebulosa Redes neurais artificiais Modelo de um neurônio Funções de ativação

10 viii Arquiteturas de RNAs Processo de apredizagem supervisionado em RNAs Algoritmo back-propagation Métodos de segunda ordem Generalização em RNAs Parada antecipada do treinamento Algoritmo de regularização bayesiana Algoritmo de Pruning Optimal brain surgeon Método ensemble modelling Sistemas híbridos neuro-fuzzy O sistema ANFIS O treinamento do sistema ANFIS Seleção das entradas para o sistema ANFIS Descrição do Processo Introdução O processo de produção de tiras de aço em uma usina integrada a coque Etapas do processo Preparação do minério e do carvão Redução do minério de ferro

11 ix Refino Conformação mecânica Conclusão da seção Propriedades mecânicas de aços Conceitos básicos Limite de escoamento - LE Limite de resistência - LR Ductilidade - ALO Máquina de ensaio de tração da USIMINAS Aços de alta resistência microligados Predição das Propriedades Mecânicas de Aços HSLA Introdução Seleção e pré-processamento das variáveis de entrada Seleção das variáveis de entrada Coleta de dados Análise estatística das variáveis Identificação automática de outliers Normalização das variáveis Redução da dimensionalidade utilizando PCA

12 x Agrupamento de dados Predição utilizando regressão linear múltipla Predição através de RNAs Arquitetura de RNAs Treinamentos realizados Análise de sensibilidade Predição através de sistemas híbridos neuro-fuzzy Sistemas Neuro-fuzzy desenvolvidos Conclusão Ferramenta Off-line para Predição de Propriedades Mecânicas e Parâmetros de Processo Introdução Benefícios esperados RNA para predição de parâmetros de processo A ferramenta Considerações Finais Conclusões Sugestões para trabalhos futuros

13 Lista de Figuras 2.1 Operações entre conjuntos - União:A B, Interseção: A B e Complemento: A Funções de pertinência mais comuns Funções de Pertinência típicas para os valores linguísticos jovem, meia-idade e velho Operações sobre conjuntos nebulosos Sistema de inferência nebulosa Regras se-então e mecanismos de inferência nebulosos normalmente usados Modelo de um neurônio Funções de ativação: (a) função limiar, (b) função linear, (c) função linear por partes, (d) função sigmoidal tangente hiperbólica RNA Feedforward de uma única camada RNA feedforward, com duas camadas e totalmente conectada RNA recorrente Aprendizagem supervisionada Problema do ajuste do modelo - Underfitting, Ajuste Adequado e Overfitting Comportamento dos erros de treinamento e validação no treinamento com dados ruidosos (a) Sistema de inferência nebuloso tipo 3 (Sugeno) com 2 entradas; (b) sistema ANFIS equivalente

14 3.1 Fluxo de produção de uma usina siderúrgica integrada a coque Fluxo de produção da redução do minério de ferro Fluxo de produção da etapa de refino do aço Fluxo de produção da laminação a quente Fluxo de produção da laminação a frio Fluxo de produção completo com identificação dos processos onde foram coletados dados para o modelo. Entradas: elipses cheias. Saída: elipse tracejada Diagrama tensão x deformação típico Máquina de ensaio de tração xii 4.1 Carga de laminação Histograma - Carga de laminação Outliers do conjunto multivariável identificados pelo método da distância de Mahalanobis apresentados sobre a variável Temperatura do forno SF RNN - Rede Neural Replicadora, mostrando as 5 camadas e o vetor de entradas V que é também o vetor de saídas desejadas Outliers do conjunto multivariável identificados pela RNN apresentados sobre a variável Temperatura do forno SF Histogramas dos Erros percentuais e Erros percentuais médios (EPM) usando regressão linear múltipla Análise de correlação (R:Coeficiente de correlação) dos resultados de predição usando regressão linear múltipla Histogramas dos Erros percentuais e Erros percentuais médios (EPM) da RNA usando LM com parada antecipada pelo erro de validação e normalização entre -1e Análise de correlação (R:Coeficiente de correlação) dos resultados de predição da RNA usando LM com parada antecipada pelo erro de validação e normalização entre -1 e

15 4.10 Histogramas dos Erros percentuais e Erros percentuais médios (EPM) da RNA usando LM com parada antecipada pelo erro de validação e normalização com média 0 e desvio padrão Análise de correlação (R:Coeficiente de correlação) dos resultados de predição da RNA usando LM com parada antecipada pelo erro de validação e normalização com média 0 e desvio padrão Histogramas dos Erros percentuais e Erros percentuais médios (EPM) da RNA usando LM com regularização bayesiana e normalização entre -1 e Análise de correlação (R:Coeficiente de correlação) dos resultados de predição da RNA usando LM com regularização bayesiana e normalização entre -1 e Histogramas dos Erros percentuais e Erros percentuais médios (EPM) da RNA usando LM com regularização bayesiana e normalização com média 0 e desvio padrão Análise de correlação (R:Coeficiente de correlação) dos resultados de predição da RNA usando LM com regularização bayesiana e normalização com média 0 e desvio padrão Histogramas dos Erros percentuais e Erros percentuais médios (EPM) da RNA usando LM com regularização bayesiana, redução por PCA e normalização com média zero e desvio padrão Análise de correlação (R:Coeficiente de correlação) dos resultados de predição da RNA usando LM com regularização bayesiana, redução por PCA e normalização com média 0 e desvio padrão Histogramas dos Erros percentuais e Erros percentuais médios (EPM) da RNA usando técnica de pruning e normalização entre -1 e Análise de correlação (R:Coeficiente de correlação) dos resultados de predição da RNA usando técnica de pruning e normalização entre -1 e Histogramas dos Erros percentuais e Erros percentuais médios (EPM) usando Ensemble model Análise de correlação (R:Coeficiente de correlação) dos resultados de predição usando Ensemble model xiii

16 4.22 Sensibilidade relativa das saídas da RNA às entradas Histogramas dos Erros percentuais e Erros percentuais médios (EPM) dos sistemas neuro-fuzzy usando todas as entradas Análise de correlação (R:Coeficiente de correlação) dos resultados de predição dos sistemas neuro-fuzzy usando todas as entradas Histogramas dos Erros percentuais e Erros percentuais médios (EPM) dos sistemas neuro-fuzzy usando backward selection Análise de correlação (R:Coeficiente de correlação) dos resultados de predição dos sistemas neuro-fuzzy usando backward selection Histogramas dos Erros percentuais e Erros percentuais médios (EPM) dos sistemas neuro-fuzzy usando forward selection Análise de correlação (R:Coeficiente de correlação) dos resultados de predição dos sistemas neuro-fuzzy usando forward selection Histogramas dos Erros percentuais e Erros percentuais médios (EPM) dos sistemas neuro-fuzzy usando o método combinado de Análise de sensibilidade e forward selection Análise de correlação (R:Coeficiente de correlação) dos resultados de predição dos sistemas neuro-fuzzy usando o método combinado de Análise de sensibilidade e forward selection xiv 5.1 Fluxo de produção completo com identificação dos processos onde foram coletados dados para o modelo de predição de parâmetros de processo. Entradas: elipses cheias. Saídas: elipses tracejadas Interface gráfica da ferramenta de predição de propriedades mecânicas para aços HSLA, laminados a frio e revestidos por imersão a quente Interface gráfica da ferramenta de predição de parâmetros de processo para integração das linhas de produção CAPL e CGL

17 Lista de Tabelas 2.1 Operações sobre conjuntos nebulosos Treinamento híbrido do sistema ANFIS Valores de composição química [%] para aços HSLA - FONTE: Norma EN Garantias de propriedades mecânicas para aços HSLA - FONTE: Norma EN Variáveis de entrada Médias e Desvios padrão (SD) dos erros de predição de propriedades mecânicas para aços HSLA, usando regressão linear, regressão não linear quadrática (Q) e cúbica (C) - FONTE: (Jones et al., 2005) Erro médio quadrático (MSE) dos treinamentos de RNAs com uma e duas camadas intermediárias Resumo dos resultados de Erro médio quadrático (MSE) das RNAs na predição das propriedades mecânicas Resumo dos resultados da análise de correlação (R:Coeficiente de correlação) das RNAs para predição de propriedades mecânicas Número de entradas de cada sistema neuro-fuzzy gerado pelo método backward selection Número de entradas de cada sistema neuro-fuzzy gerado pelo método forward selection

18 4.8 Número de entradas de cada sistema neuro-fuzzy gerado pelo método combinado de Análise de sensibilidade e forward selection Resumo dos resultados, Erro médio quadrático (MSE) e análise de correlação (R:Coeficiente de correlação), obtidos nas implementações de sistemas neurofuzzy para predição de propriedades mecânicas Resumo dos melhores resultados, Erro médio quadrático (MSE) e análise de correlação (R:Coeficiente de correlação), obtidos na predição de propriedades mecânicas usando Regressão linear múltipla, RNAs (única e ensemble) e sistemas híbridos neuro-fuzzy xvi 5.1 Resumo dos resultados do Erro percentual médio (EPM) das RNAs para predição de parâmetros de processo para integração das linhas de produção CAPL e CGL Resultados de propriedades mecânicas obtidas em experimentos realizados com parâmetros de processo fornecidos pelas RNAs projetadas para a integração das plantas CAPL e CGL

19 Lista de Algoritmos 1 Estratégia de treinamento para se obter a melhor RNA

20 Siglas e Abreviações ALO CAPL CGL ANFIS EP EPM HSLA IC LE LM LR MLP MSE PCA RBF RMSE RNA RNN ALOngamento Linha de recozimento contínuo (Continuos Annealing Processing Line) Linha de galvanização por imersão a quente (Continuos Galvanizing Line) Sistemas de inferência neuro-fuzzy adaptativos (Adaptive Neuro-Fuzzy Inference Systems) Erro Percentual Erro Percentual Médio Aços de alta resistência microligados (High Strength Low Alloy) Inteligência Computacional Limite de Escoamento Algoritmo de otimização proposto por Levemberg Marquardt Limite de Resistência Redes neurais multi-camadas (Multilayer Perceptron) Média do somatório dos erros quadráticos (Mean Squared Errors) Análise de componentes principais (Principal Components Analysis) Redes de funções de base radiais (Radial Basis Function) Raiz quadrada da média do somatório dos erros quadráticos (Root Mean Squared Errors) Rede Neural Artificial Redes neurais replicadoras (Replicator Neural Network)

21 xix SD USIMINAS Desvio padrão (Standard Deviation) Usinas SIderúrgicas de MINAS Gerais S.A.

22 Capítulo 1 Introdução A competição acirrada na siderurgia mundial tem forçado os fabricantes a estreitar cada vez mais as faixas de tolerâncias dimensionais e de propriedades mecânicas dos produtos. Dessa forma, a obtenção de propriedades mecânicas especificadas, tais como Limite de escoamento, Limite de resistência e Alongamento é um aspecto crucial para a indústria siderúrgica. Modelos físicos fenomenológicos formam a base para a compreensão dos processos, porém a construção de tais modelos para processos complexos, multidimensionais e com relacionamentos não-lineares pode ser uma tarefa altamente complexa, além de exigir alto consumo de tempo (Myllykoski et al., 1996). No caso das propriedades mecânicas de aços, apenas o conhecimento físico disponível destes processos, como por exemplo o tratamento térmico, não permite a construção de modelos físicos confiáveis (Mahfouf et al., 2005). Uma abordagem à luz da tentativa e erro para solucionar o problema muitas vezes é levada em conta pela indústria, com elevado investimento tanto de tempo quanto financeiro, baixa confiabilidade e baixa capacidade de predição (Chen e Linkens, 1999). Como os processos industriais modernos estão geralmente associados a grandes massas de dados, modelos empíricos também têm sido usados para descrever tais processos (Tenner et al., 2001). Na tentativa de superar os problemas citados pela modelagem convencional, técnicas de inteligência computacional 1 têm sido propostas como alternativas viáveis para modelagem onde 1 Inteligência computacional (IC) poderia ser definida como um conjunto de modelos, algoritmos, técnicas, ferramentas e aplicações, em um sistema computadorizado, que emula algumas das habilidades cognitivas do homem (Allard e Fuchs, 1993).

23 2 abordagens convencionais têm apresentados resultados insatisfatórios. Técnicas de inteligência computacional inspiradas em habilidades humanas e classificadas como aproximadores universais de funções, redes neurais artificiais e sistemas híbridos neurofuzzy, têm sido pesquisadas para predição de propriedades mecânicas de materiais (Myllykoski et al., 1996; Liu et al., 1996; Myllykoski, 1997; Dumortier et al., 1998; Chen e Linkens, 1999; Warde e Knowles, 1999; Femminela et al., 1999; Tenner et al., 2001; Yang e Linkens, 2001; Abbod et al., 2003; Jones et al., 2005; Sterjovski et al., 2005). As Redes neurais artificiais são implementações computacionais que simulam os processos que ocorrem no cérebro e no sistema nervoso humano (Sterjovski et al., 2005), capazes de aprender através de exemplos. Bons resultados têm sido obtidos pela utilização de redes neurais artificiais na modelagem de processos complexos. Uma rede neural do tipo Multilayer Perceptron (MLP) com algoritmo de aprendizado backpropagation se mostrou capaz de realizar com precisão a predição de propriedades mecânicas de tiras de aço (Myllykoski, 1997). Os sistemas híbridos neuro-fuzzy, segundo Jang et al. (1997), combinam a representação explícita do conhecimento e a capacidade de tratar informações linguísticas da lógica fuzzy, baseada na teoria de conjuntos nebulosos proposta por Zadeh (1965), com a capacidade de aprendizagem das redes neurais artificiais (Haykin, 1999). Segundo Jones et al. (2005), são óbvios os benefícios da utilização das técnicas de inteligência computacional para predição das propriedades mecânicas e podem ser destacados: 1. a possibilidade de se confirmar as propriedades mecânicas em tempo real em cada fase do processo; 2. a possibilidade de otimização da composição química e dos parâmetros de processo; 3. o suporte para realização de ações de feed-forward nos diversos processos da cadeia de produção; 4. a redução do tempo e volume de produção experimental envolvidos no projeto de aços. Baseando-se nas evidências promissoras das pesquisas realizadas, este trabalho detalha um caso real de aplicação das técnicas de redes neurais artificiais e sistemas híbridos neuro-fuzzy para a predição das propriedades mecânicas de aços de alta resistência microligados - HSLA (High Strength Low Alloy), laminados a frio e revestidos por imersão a quente. As propriedades mecânicas; LE (Limite de escoamento), LR (Limite de resistência) e ALO (Alongamento); são influenciadas em várias das etapas do processo de fabricação do aço. Cada

24 1.1 Motivação 3 uma destas etapas pode ser considerada uma unidade fabril distinta dentro de uma usina siderúrgica integrada. Dessa forma, o processo de modelagem das propriedades mecânicas envolve a utilização de dados oriundos de grande parte da gama de etapas do processo de produção do aço. Essas considerações dificultam a modelagem através de uma abordagem fenomenológica. 1.1 Motivação Tradicionalmente, as propriedades mecânicas dos produtos siderúrgicos são obtidas através de testes mecânicos em laboratórios. Considerando-se que um produto siderúrgico, laminado a frio típico, possui um tempo total de fabricação (lead time) de cerca de dois meses (PROMINP, 2006), o não atingimento dos valores especificados de propriedades mecânicas representa um sério transtorno para os fabricantes de aço. Um outro complicador é a variabilidade das propriedades dentro de um mesmo produto (Jones et al., 2005) Com o desenvolvimento de hardware e o advento das técnicas de inteligência computacional abre-se a possibilidade de se desenvolver ferramentas para realizar a predição destas propriedades em tempo real nas diversas etapas do processo de produção do aço. A possibilidade da utilização de uma ferramenta de apoio a decisão para predição de propriedades mecânicas permite vislumbrar os seguintes benefícios: o auxílio no projeto de aços, basicamente o desenvolvimento de novas ligas e condições de processo, bem como a otimização de composição de ligas existentes; a redução da variabilidade das propriedades mecânicas nos produtos em função da definição de ações de feedforward ao longo das etapas do processo; a redução nos custos e prazos de experiências desenvolvidas em ambiente industrial. Devido a produção em larga escala, característica comum nos processos da indústria siderúrgica, a realização de experiências é bastante restrita. 1.2 Objetivos Os objetivos deste trabalho são: 1. investigar as técnicas de inteligência computacional - Redes Neurais Artificiais e sistemas híbridos neuro-fuzzy;

25 1.3 Organização do Texto 4 2. aplicar as técnicas investigadas no problema de predição de propriedades mecânicas de aços HSLA laminados a frio e revestidos; 3. desenvolver em ambiente Windows uma ferramenta de apoio à decisão para: predição de propriedades mecânicas e auxílio no projeto de aços e; predição de parâmetros de processo para integração das linhas de produção CAPL (Recozimento Contínuo) e CGL (Galvanização por imersão a quente) da USIMINAS. 1.3 Organização do Texto Este texto está organizado da seguinte forma: Capítulo 2: Métodos de Inteligência Computacional. Este capítulo apresenta uma revisão bibliográfica dos métodos de inteligência computacional investigados e aplicados no trabalho, redes neurais artificiais e sistemas híbridos neuro-fuzzy. No caso das redes neurais são discutidos algoritmos que buscam modelos neurais com elevada capacidade de generalização. Para os sistemas híbridos neuro-fuzzy são abordadas questões relativas à implementação de sistemas com elevado número de entradas e também técnicas para seleção das variáveis mais importantes para o modelo. Capítulo 3: Descrição do Processo. Primeiramente, é apresentado todo o processo de fabricação de aço em uma usina siderúrgica integrada a coque. Em seguida, são caracterizados os aços de alta resistência microligados e detalhadas as propriedades mecânicas a serem buscadas na sua produção. É abordado ainda o ensaio de tração, realizado em laboratório, no qual são obtidas as propriedades mecânicas. Capítulo 4: Predição das Propriedades Mecânicas de Aços HSLA. Este capítulo apresenta todo o desenvolvimento realizado no trabalho. Descreve-se a seleção e o pré-processamento das variáveis a serem utilizadas na modelagem, as diversas implementações realizadas utilizando-se os métodos de inteligência computacional e discutem-se resultados obtidos. Capítulo 5: Ferramenta Off-line para Predição de Propriedades Mecânicas. Neste capítulo é apresentada a implementação em ambiente Windows de uma ferramenta offline para predição das propriedades mecânicas de aços HSLA e integração das linhas de produção CAPL e CGL. Capítulo 6: Considerações Finais. Este capítulo apresenta as conclusões da dissertação e sugestões para trabalhos futuros.

26 Capítulo 2 Métodos de Inteligência Computacional 2.1 Introdução Esse capítulo introduz os métodos de inteligência computacional, RNAs e sistemas híbridos neuro-fuzzy, os quais foram aplicados no presente trabalho. Como mencionado no capítulo 1, estes métodos foram selecionados por terem sido utilizados com sucesso para predição de propriedades mecânicas de materiais. Na primeira parte deste capítulo será realizada uma breve apresentação dos conceitos de conjuntos nebulosos e de sistemas de inferência nebulosa. Na sequência são apresentas as RNAs, o algoritmo de treinamento por retropropagação do erro (error back-propagation) e as diversas estratégias aplicadas ao treinamento para se gerar modelos com elevada capacidade de generalização. Finalmente os sistemas híbridos neuro-fuzzy são apresentados. 2.2 Sistemas de inferência nebulosa Sistemas de inferência nebulosa, ou sistemas nebulosos, são implementações computacionais baseadas nos conceitos da teoria de conjuntos nebulosos, nas regras Se-então nebulosas e na inferência nebulosa (Jang et al., 1997). Nas teorias de controle convencionais, clássica e moderna, o primeiro passo para implementar o controle de determinado processo é derivar o modelo matemático que descreve o processo, o que nem sempre é factível em função da complexidade do sistema. Quando a

27 2.2 Sistemas de inferência nebulosa 6 modelagem do processo é impraticável, por exemplo em função do volume de dados a ser manipulado ou no caso em que as informações disponíveis são variáveis qualitativas ou linguísticas 1, estas situações inviabilizam a aplicação da maioria das teorias de controle convencionais. A grande simplicidade de implementação de sistemas de controle nebuloso (fuzzy) pode reduzir a complexidade de um projeto a um ponto em que problemas anteriormente intratáveis passam a ser solúveis. A modelagem e o controle nebulosos são técnicas para se manusear informações qualitativas, considerando a falta de exatidão e a incerteza, tornando-se ferramentas suficientemente poderosas para a manipulação conveniente do conhecimento (Gomide e Gudwin, 1994) Conjuntos clássicos A Teoria de Conjuntos Clássica é a teoria matemática que trata das propriedades dos conjuntos e teve sua origem nos trabalhos do matemático russo Georg Cantor ( ). Essa teoria baseia-se na idéia de se definir conjunto como uma noção primitiva, também chamada de teoria ingênua ou intuitiva devido à descoberta de vários paradoxos relacionados à definição de conjunto. Segundo Cantor "a set is a collection into a whole M of definite and separate objects m of our intuition or thought" (Seizing, 2005). Na teoria de conjuntos clássica, um conjunto é descrito como uma coleção de objetos bem definidos. Neste contexto, cada objeto individualmente é referido como sendo um elemento ou um membro do conjunto. Num dado conjunto, um objeto x qualquer pode ou não ser um elemento deste conjunto e, de acordo com a teoria criada por Cantor, pertinência parcial não é permitida. Seja X um espaço de objetos e x um elemento genérico de X. Um conjunto clássico A é definido como uma coleção de objetos ou elementos x X, tal que cada elemento x pode pertencer ou não ao conjunto A, A X. Definindo uma função característica ou função de pertinência sobre cada elemento x em X, um conjunto clássico A pode ser representado por um conjunto de pares ordenados (x,0) ou (x,1), sendo 1 e 0 pertinência e não pertinência respectivamente. A álgebra dos conjuntos é o estudo da criação de novos conjuntos a partir de conjuntos já definidos, utilizando por exemplo, operações de União, Interseção e Complemento. A Figura 2.1 apresenta graficamente as operações citadas. 1 Variáveis linguísticas: Variáveis cujos valores são palavras ou frases de uma linguagem natural (Zadeh, 1988), usualmente empregadas na comunicação humana.

28 2.2 Sistemas de inferência nebulosa 7 Figura 2.1: Operações entre conjuntos - União:A B, Interseção: A B e Complemento: A Conjuntos nebulosos A teoria de conjuntos nebulosos pode ser considerada como uma extensão da teoria de conjuntos clássica. O conceito formal de conjunto nebuloso foi introduzido por Zadeh (1965). Definição "A fuzzy set (class) A in X is characterized by a membership function (characteristic function) µ A (x) which associates with each point in X a real number in the interval [0,1], with the value of µ A (x) at x representing the grade of membership of x in A" (Zadeh, 1965). Em contraste à teoria de conjuntos clássica, um conjunto nebuloso (fuzzy set) como o próprio nome diz, é um conjunto no qual a pertinência dos objetos não se resume a sim ou não (Jang et al., 1997). Neste caso a transição entre "pertencer a um conjunto" ou "não pertencer a um conjunto" é gradual, e essa transição suave é caracterizada pelas funções de pertinência que dão aos conjuntos nebulosos flexibilidade para modelagem de expressões linguísticas, tais como "a água está quente" ou "a temperatura está alta" (Jang et al., 1997). Como apontado por Zadeh (1965) essa abordagem "play an important role in human thinking, particularly in the domains of pattern recognition, communication of information, and abstraction". Diferentemente do conjunto clássico mencionado anteriormente, um conjunto nebuloso expressa o grau de pertinência no qual um elemento pertence ao conjunto. Neste caso a função característica de um conjunto nebuloso permite valores entre 0 e 1, denotando o grau de per-

29 2.2 Sistemas de inferência nebulosa 8 tinência de um elemento em um dado conjunto. Se X é uma coleção de objetos denotados genericamente por x, então um conjunto nebuloso A em X é definido como um conjunto de pares ordenados: A = {(x,µ A (x)) x X} (2.1) sendo µ A (x) chamada a função de pertinência de x em A, que mapeia X para o espaço de pertinência M, M =[0,1]. Quando X possui apenas dois pontos 0 e 1, A é um conjunto não nebuloso e µ A (x) é idêntica à função de pertinência de um conjunto clássico. A Figura 2.2 apresenta alguns tipos de funções de pertinência mais comuns. Triangular Gaussiana Grau de Pertinência Grau de Pertinência Sino generalizada Trapezoidal Grau de Pertinência Grau de Pertinência Figura 2.2: Funções de pertinência mais comuns. Como exemplo, considere-se um universo de discurso X = idade. Então A pode assumir vários termos linguísticos como, jovem, meia-idade e velho que são caracterizados pelas funções de pertinência µ jovem (x), µ meia idade (x) e µ velho (x). Funções de pertinência típicas para estes valores linguísticos são apresentados na Figura 2.3. Obviamente as funções de pertinência usadas na maioria das aplicações não são simples como as mostradas na Figura 2.2. Funções de pertinência podem ser dependentes de mais de uma variável ou depender de mais de um universo de discurso. O tipo de função de pertinência a ser selecionado deve ser aquele que mais se adeque ao problema. Como os conjuntos nebulosos são utilizados para modelagem do conhecimento, a definição e a parametrização das funções de pertinência podem levar em conta a experiência e

30 2.2 Sistemas de inferência nebulosa 9 Figura 2.3: Funções de Pertinência típicas para os valores linguísticos jovem, meia-idade e velho. o conhecimento de especialistas no problema. Assim como nos conjuntos clássicos pode-se verificar para os conjuntos nebulosos a existência das operações de conjuntos correspondentes. Sejam A e B dois conjuntos nebulosos em U com funções de pertinência µ A e µ B respectivamente. As operações de conjuntos união (A B), interseção (A B) e complemento ( A) são definidas da seguinte forma: µ (A B) (U) =µ (A) (U) µ (B) (U); disjunção nebulosa µ (A B) (U) =µ (A) (U) µ (B) (U); conjunção nebulosa µ A (U) =1 µ A (U) sendo e são operadores de união e interseção respectivamente. Exemplos de operadores são as normas triangulares t (e.g., mínimo, produto dentre outras). Definição: Uma norma triangular é uma função t:[0,1]x[0,1] [0,1] tal que, x, y, z, w [0,1]: 1. xt w y t z, se x y, w z 2. xt y = y t x 3. (x t y) t z = x t (y t z) 4. xt 0=0;xt1=x Exemplos de operadores são as co-normas triangulares s (e.g., máximo, soma probabilística, soma limitada dentre outras). Definição: Uma co-norma triangular é uma função s:[0,1]x[0,1] [0,1], satisfazendo as propriedades (1) a (3) acima e ainda: 5. xs 0=x; x s 1=1

31 2.2 Sistemas de inferência nebulosa 10 A Figura 2.4 apresenta graficamente as operações sobre conjuntos nebulosos e a Tabela 2.1 mostra cada uma das operações realizadas detalhando as respectivas expressões, onde podem ser vistos os operadores usados em cada operação. Figura 2.4: Operações sobre conjuntos nebulosos Regras Se-Então e sistemas de inferência nebulosa Regras nebulosas ou mais formalmente declarações condicionais nebulosas são expressões da forma Se A Então B, sendo A e B variáveis de conjuntos nebulosos (fuzzy) caracterizados por suas respectivas funções de pertinência. Devido a sua forma concisa as regras Se - Então são empregadas para emular os modos imprecisos do raciocínio humano utilizados para tomada de decisões em ambientes de incerteza e imprecisão (Jang, 1992). Um exemplo que descreve um simples fato é Se a pressão é alta, então o volume é pequeno, sendo pressão e volume variáveis linguísticas e alta e pequeno valores linguísticos caracterizados por funções de pertinência. Como citado em Jang (1993), uma outra forma das regras Se-Então, proposta por Takagi e Sugeno, é usar conjuntos nebulosos apenas no antecedente da regra. Usando esta nova definição, pode-se descrever a força f de resistência a um objeto se movendo como: Se a velocidade é alta, então f = k (velocidade 2 ).

32 2.2 Sistemas de inferência nebulosa 11 Tabela 2.1: Operações sobre conjuntos nebulosos. Operação Expressão A B µ A B (x) =max[µ A (x),µ B (x)] A B µ A B (x) =min[µ A (x),µ B (x)] A µ A (x) =1 µ A (x) As regras de inferência constituem o núcleo de um sistema de inferência nebulosa, que será detalhado a seguir. Sistemas de inferência nebulosa (Fuzzy inference systems) são também conhecidos como sistemas baseados em regras nebulosas, sistemas nebulosos, modelos nebulosos ou controladores nebulosos quando usados como controladores. Um sistema de inferência nebulosa, representado na Figura 2.5, é composto por cinco blocos funcionais: base de regras - onde são armazenadas as regras nebulosas Se - Então; base de dados - onde são armazenadas os parâmetros das funções de pertinência dos conjuntos nebulosos usados nas regras nebulosas; mecanismo de inferência - parte do sistema onde são realizadas as inferências sobre as regras; nebulização - responsável por transformar as variáveis crisp 2 em graus de pertinência; desnebulização - responsável por transformar a saída nebulosa num valor de saída crisp. 2 O termo crisp aparece em oposição ao termo fuzzy, com o significado de categórico, taxativo, concreto, nítido e objetivo (Andrade, 2003).

33 2.2 Sistemas de inferência nebulosa 12 Figura 2.5: Sistema de inferência nebulosa. Normalmente a base de dados e a base de regras são referenciadas conjuntamente como base de conhecimento. De acordo com Jang (1993), há na literatura várias implementações de sistemas nebulosos, diversificando basicamente na maneira de realizar a inferência nebulosa e na definição das regras de inferência. A maioria dos sistemas, no entanto, pode ser classificada de acordo com os três tipos apresentados na Figura 2.6: tipo 1 - Neste tipo, conhecido por modelo nebuloso de Tsukamoto (Jang et al., 1997), o consequente de cada regra é representado por uma função de pertinência monotônica. A saída para cada regra é inferida a partir do resultado de uma operação de produto ou mínimo entre os graus de pertinência dos antecedentes. A saída geral é uma média ponderada das saídas de cada regra, usando-se o resultado da operação de produto ou mínimo dos antecedentes como peso de ponderação; tipo 2 - Neste tipo, conhecido por modelo nebuloso de Mamdani (Jang et al., 1997), a saída para cada regra é inferida a partir do resultado de uma operação de produto ou mínimo entre os graus de pertinência dos antecedentes, nas funções de pertinência do conjunto nebuloso da saída. A saída nebulosa é calculada a partir da composição das saídas de cada regra, usando-se por exemplo a operação de máximo. Há várias abordagens para o cálculo da saída crisp, sendo comum o uso do centróide da figura; tipo 3 - Neste tipo, conhecido por modelo nebuloso de Sugeno (Jang et al., 1997), o consequente de cada regra é gerado a partir de uma combinação linear das variáveis de entrada. A saída geral é uma média ponderada das saídas de cada regra, usando-se o

34 2.3 Redes neurais artificiais 13 Figura 2.6: Regras se-então e mecanismos de inferência nebulosos normalmente usados. resultado da operação de produto ou mínimo dos antecedentes como peso de ponderação. No sistema de inferência nebulosa do tipo Sugeno temos conjuntos nebulosos nas entradas e funções lineares na saída. Na próxima seção será realizada uma introdução às Redes Neurais Artificiais e em seguida serão apresentados os sistemas híbridos Neuro-fuzzy que combinam as técnicas de sistemas de inferência nebulosa com as redes neurais artificiais. 2.3 Redes neurais artificiais Redes neurais artificiais (RNAs) têm sido aplicadas com sucesso nos mais diversos problemas, dentre os quais citam-se: controle de processos, classificação de padrões, aproximação de funções e predição (Teixeira, 2005). O interesse no estudo e aplicação das RNAs pode em parte ser atribuído às propriedades identificadas nas RNAs, entre as quais destacam-se: não-linearidade;

35 2.3 Redes neurais artificiais 14 mapeamento de entrada-saída; adaptabilidade; generalização. Uma rede neural pode ser projetada para representar funções não-lineares ou lineares. Esta característica é importante, uma vez que a maior parte dos problemas reais são regidos por dinâmicas não-lineares. A não-linearidade de uma RNA é de um tipo especial, uma vez que ela é distribuída por toda a rede (Haykin, 1999). A modelagem de fenômenos não-lineares é uma tarefa de difícil execução, visto que as relações entre as variáveis de entrada e saída nem sempre são conhecidas. Um paradigma de aprendizado bastante popular é o aprendizado supervisionado. Neste paradigma de aprendizado são apresentados ao modelo neural um conjunto de treinamento composto de entradas e saídas desejadas, que são chamados de padrões de treinamento. A rede neural é capaz de mapear as saídas no espaço das entradas. Assim, a rede aprende dos exemplos ao construir um mapeamento de entrada-saída para o problema considerado (Haykin, 1999). A capacidade de adaptação ao ambiente é uma característica inerente às RNAs, dada a capacidade de adaptação de seus pesos sinápticos. A generalização em redes neurais pode ser explicada como a capacidade da RNA fornecer respostas coerentes para padrões desconhecidos. O benefício proporcionado pela capacidade de generalização de um modelo neural é considerável, dada a necessidade de resposta da rede a padrões desconhecidos ou diferentes dos padrões de treinamento. A alta capacidade de generalização também proporciona robustez ao modelo quando os dados ou exemplos estão sob o efeito de ruído. As redes neurais são modelos matemáticos inspirados no cérebro humano e constituem um sistema de processamento paralelo e distribuído, composto de unidades de processamento simples (neurônios) que têm a capacidade de armazenar conhecimento experimental e torná-lo disponível para o uso (Haykin, 1999). Segundo Haykin (1999) as RNAs se assemelham ao funcionamento do cérebro humano nos seguintes aspectos: o conhecimento é adquirido pela RNA a partir de seu ambiente, através de um processo de aprendizagem;

36 2.3 Redes neurais artificiais 15 forças de conexão entre neurônios, conhecidas como pesos sinápticos, são utilizadas para armazenar o conhecimento adquirido. Uma RNA treinada para operar em um ambiente específico pode ser re-treinada para continuar em operação, caso ocorram alterações dentro de certos limites, neste ambiente (Haykin, 1999) Modelo de um neurônio Um neurônio artificial é uma aproximação rudimentar de um neurônio biológico e constitui a unidade fundamental de processamento de informação de uma rede neural (Haykin, 1999). A Figura 2.7 mostra o modelo de um neurônio artificial. Podem ser identificados três elementos básicos no modelo: 1. sinapses - ou conexões de entrada, caracterizadas por pesos ou forças próprias. Sendo assim, um sinal x j na entrada da sinapse j conectada ao neurônio k é multiplicado pelo peso sináptico w kj ; 2. junção de soma - responsável pela combinação aditiva dos sinais de entrada, realizando a soma ponderada dos sinais de entrada; 3. função de ativação - pode ser linear ou não linear e no segundo caso geralmente restringe a amplitude de saída do neurônio. Pode-se descrever matematicamente o modelo do neurônio da Figura 2.7 pelas Equações 2.2 e 2.3 p v k = w kj x j (2.2) j=0 y k = ϕ (v k ), (2.3) sendo x 0,x 1,..., x p os sinais de entrada, w k0,w k1,..., w kp os pesos sinápticos do neurônio k, v k o nível de ativação interna ou potencial de ativação do neurônio k, ϕ (.) a função de ativação e y k é a saída do neurônio k. Na Figura 2.7 verifica-se a presença de uma entrada de polarização fixa x 0 =+1. Esta entrada, juntamente com o peso w k0 a ela associada, tem o efeito de transladar a função de ativação em torno da origem, fazendo com que a ativação interna v k do neurônio não seja nula quando todas as demais entradas x 0,x 1,..., x p forem nulas.

37 2.3 Redes neurais artificiais 16 Figura 2.7: Modelo de um neurônio Funções de ativação A função de ativação ϕ (.) é responsável por definir a saída do neurônio em termos do seu nível de ativação interna v k. Podem ser enumerados alguns tipos de função de ativação mais usados. 1. Função limiar - neste caso, ilustrado pela Figura 2.8(a), a saída do neurônio é dada pela Equação 2.4 { +1, para v 0 ϕ (v) = (2.4) 1, para v<0 2. Função linear - neste caso, ilustrado pela Figura 2.8(b), a saída do neurônio é dada pela Equação 2.5 ϕ (v) =αv, (2.5) sendo α um número real que define a saída linear para os valores de v. 3. Função linear por partes - neste caso, ilustrado pela Figura 2.8(c), a saída do neurônio é dada pela Equação , para v γ ϕ (v) = v, para v <γ 1, para v γ (2.6)

38 2.3 Redes neurais artificiais 17 sendo γ um número real que parametriza a função. 4. Função sigmoidal tangente hiperbólica - neste caso, apresentado na Figura 2.8(d), a saída do neurônio é dada pela Equação 2.7 ϕ (v) = 1 e 2v. (2.7) 1+e 2v y(v k ) v k (a) y(v k ) v k (b) y(v k ) v k (c) y(v k ) v k (d) Figura 2.8: Funções de ativação: (a) função limiar, (b) função linear, (c) função linear por partes, (d) função sigmoidal tangente hiperbólica. No caso das funções de ativação limiar, linear por partes e tangente hiperbólica foi considerada a faixa de variação entre ± 1, porém pode ser desejável em algumas situações que a variação seja entre 0 e Arquiteturas de RNAs Segundo Haykin (1999), a arquitetura é a maneira pela qual os neurônios de uma RNA estão estruturados, e pode-se identificar fundamentalmente três tipos de arquiteturas: 1. redes alimentadas adiante (Feedforward) de uma única camada; 2. redes alimentadas adiante com múltiplas camadas (Multilayer Feedforward Networks);

39 2.3 Redes neurais artificiais redes recorrentes. As redes de uma única camada possuem uma camada de entrada, contendo os nós fonte, e uma camada de saída contendo os nós computacionais. A camada de entrada não é considerada na contagem do número de camadas porque os neurônios da camada de entrada são neurônios especiais, cujo papel é exclusivamente distribuir cada uma das entradas da rede (sem modificálas) a todos os neurônios da camada seguinte (Iyoda, 2000). A Figura 2.9 ilustra as redes feedforward de uma camada. Figura 2.9: RNA Feedforward de uma única camada. As RNAs alimentadas adiante com múltiplas camadas distinguem-se pela presença de uma ou mais camadas intermediárias, cujos neurônios são chamados de neurônios escondidos. A função dos neurônios escondidos é extrair estatísticas de ordem elevada (Haykin, 1999). Neste tipo de RNA, os neurônios de uma camada têm como entradas apenas os sinais de saída dos neurônios da camada anterior. Estas RNAs podem ser totalmente ou apenas parcialmente conectadas, caso alguma conexão sináptica não se faça necessária. Na Figura 2.10 tem-se um exemplo de uma RNA alimentada adiante, com duas camadas e totalmente conectada. As RNAs alimentadas adiante com múltiplas camadas (Multilayer Feedforward Networks) são comumente chamadas de MLP (Multilayer Perceptron). As RNAs do tipo MLP são as mais difundidas na literatura e serão as RNAs exploradas neste trabalho. As redes recorrentes são assim denominadas por apresentarem pelo menos um laço de realimentação (Haykin, 1999). As conexões de realimentação podem originar tanto dos neurônios

40 2.3 Redes neurais artificiais 19 Figura 2.10: RNA feedforward, com duas camadas e totalmente conectada. Figura 2.11: RNA recorrente. de saída quanto dos neurônios escondidos. A presença de laços de realimentação altera significativamente a capacidade de aprendizagem e a performance da RNA (Haykin, 1999). A Figura 2.11 apresenta uma RNA recorrente com laços de realimentação entre os neurônios.

41 2.3 Redes neurais artificiais Processo de apredizagem supervisionado em RNAs A mais importante propriedade das RNAs é a capacidade de aprender a partir de seu ambiente e melhorar seu desempenho através da aprendizagem. A aprendizagem é realizada através de um processo iterativo de ajuste dos pesos sinápticos. Idealmente, a RNA deve saber mais sobre seu ambiente após cada iteração do processo de aprendizagem. No contexto de redes neurais artificiais, Haykin (1999) define aprendizagem da seguinte forma: "Aprendizagem é um processo pelo qual os parâmetros livres de uma rede neural são adaptados através de um processo de estímulo pelo ambiente no qual a rede está inserida. O tipo de aprendizagem é determinado pela maneira na qual a modificação dos parâmetros ocorre". Assim, um processo de aprendizagem de uma rede neural implica na seguinte seqüência de eventos: 1. a rede neural é estimulada pelo ambiente; 2. a rede neural se submete a alteração de seus parâmetros livres como resultado do estímulo; 3. em função das alterações em sua estrutura interna, a rede modifica sua resposta aos estímulos do ambiente. Define-se como algoritmo de aprendizagem o conjunto de regras bem definidas que leva ao aprendizado (Haykin, 1999). Os diversos métodos desenvolvidos para treinamento de RNAs podem ser agrupados em dois paradigmas principais: aprendizado supervisionado e aprendizado não supervisionado (Braga et al., 2000). O método de aprendizado supervisonado, assim chamado em função da existência de um supervisor externo (professor) que fornece as entradas e as saídas desejadas, é o mais comum no treinamento das RNAs (Braga et al., 2000). A Figura 2.12 apresenta um diagrama de blocos da aprendizagem supervisionada. Os exemplos mais conhecidos de algoritmos para aprendizado supervisionado são a regra delta (Widrow e Hoff, 1960) e a sua generalização para RNAs de múltiplas camadas, o algoritmo de retropropagação do erro error back-propagation (Rumelhart et al., 1986). Neste trabalho será enfocado o aprendizado supervisionado, especificamente o algoritmo back-propagation.

42 2.3 Redes neurais artificiais 21 Figura 2.12: Aprendizagem supervisionada Algoritmo back-propagation O algoritmo back-propagation, proposto por Rumelhart et al. (1986) e citado em Haykin (1999) é o algoritmo mais utilizado no treinamento de redes neurais multicamadas do tipo MLP com uma ou mais camadas escondidas. O algoritmo de retropopagação de erro, ou simplesmente retropropagação (back-propagation), utiliza pares entrada-saída desejada para ajustar os pesos da rede neural, por meio de um mecanismo de correção de erro. O treinamento através do algoritmo back-propagation ocorre em dois passos: fase propagação - essa fase é utilizada para definir a saída da rede para um dado padrão de entrada e nessa fase os pesos são mantidos fixos. O fluxo segue no sentido entradasaída; fase retropropagação - essa fase utiliza a saída desejada e a saída calculada pela rede na fase de propagação, para a realização do ajuste dos pesos das conexões da rede. Nessa fase o fluxo do sinal de erro é inverso daquele na fase de propagação. O desenvolvimento do algoritmo back-propagation de Rumelhart et al. (1986), pode ser visto em detalhes em Haykin (1999) e em Braga et al. (2000).

43 2.3 Redes neurais artificiais 22 O cálculo dos ajustes nos pesos pelo algoritmo de retropropagação do erro é dado pelas seguintes relações: 1. Cálculo da correção dos pesos, pela regra delta (Widrow e Hoff, 1960) generalizada: sendo: w ji (n) =ηδ j (n) y i (n), (2.8) w ji (n) Correção no peso do neurônio j na iteração n; η Taxa de aprendizagem; δ j (n) Gradiente local do neurônio j na iteração n; y i (n) Sinal da entrada i do neurônio j na iteração n. 2. Cálculo do gradiente local: Para um neurônio j da camada de saída: δ j (n) =e j (n) ϕ j (v j (n)), (2.9) sendo e j (n) o erro entre a saída do neurônio j e a saída desejada na iteração n, ϕ j (v j (n)) a derivada da função de ativação do neurônio j em relação à saída linear do neurônio, v j (n), na iteração n. Para um neurônio j da camada intermediária: δ j (n) =ϕ j (v j (n)) k δ k (n) w kj (n), (2.10) sendo ϕ j (v j (n)) a derivada da função de ativação do neurônio j em relação à saída linear do neurônio na iteração n e k δ k (n) w kj (n) a soma ponderada dos gradientes locais da camada seguinte na iteração n Como aparece o termo ϕ j (v j (n)) nas Equações 2.9 e 2.10 do cálculo do gradiente local, isso significa que as funções de ativação utilizadas em uma rede MLP devem ser diferenciáveis A taxa de aprendizado O algoritmo back-propagation fornece uma aproximação para a trajetória no espaço de pesos calculada pelo método da "descida mais íngreme"ou "máximo declive"(steepest descent)

44 2.3 Redes neurais artificiais 23 (Haykin, 1999). Dessa forma, quanto menor for a taxa de aprendizado η menor será o ajuste dos pesos w para a próxima iteração e consequentemente mais lento será o processo de treinamento. Por outro lado, valores elevados de η podem instabilizar o algoritmo. Uma das maneiras para se evitar o problema da instabilidade é a adição de um termo de momento na regra de aprendizagem, como mostrado na Equação 2.11 w ji (n) =ηδ j (n) y i (n)+α w ji (n 1), (2.11) sendo α chamada de constante de momento. Neste caso, a Equação 2.11 é chamada de regra delta generalizada. A adição do termo de momento, além de estabilizar o algoritmo, aumenta a velocidade de aprendizado em regiões planas da superfície de erro e pode também retirar a rede de mínimos locais (Braga et al., 2000) Modos de treinamento sequencial e por lote Uma apresentação de todos os padrões do conjunto de treinamento à rede é chamada de época. Segundo Haykin (1999), para um dado conjunto de treinamento, o algoritmo backpropagation pode ser executado de dois modos distintos: modo sequencial que é também chamado de modo online, no qual o ajuste de pesos é realizado após a apresentação de cada padrão à rede. Neste modo, considerando um conjunto de treinamento com m padrões, ao final de uma época terão sido realizados m ajustes nos pesos; modo por lote ou batelada que é também chamado de modo batch, no qual o ajuste de pesos é realizado após a apresentação de todos os padrões à rede. Ainda considerando um conjunto de treinamento com m padrões, ao final de uma época será realizado apenas 1 ajuste nos pesos, porém este ajuste leva em conta os erros obtidos em todos os padrões; Critérios de parada Como mencionado em Haykin (1999) não existem critérios de parada bem formalizados para o algoritmo back-propagation, mas sim critérios de parada razoáveis do ponto de vista prático e que são normalmente empregados. Alguns dos critérios são: pelo valor da norma euclidiana do vetor gradiente: o algoritmo converge quando a norma euclidiana do vetor gradiente atinge um limiar especificado;

45 2.3 Redes neurais artificiais 24 pelo valor da taxa de variação do erro médio quadrático: o algoritmo converge quando a taxa de variação do erro médio quadrático por época for suficientemente pequena; pela capacidade de generalização da rede: neste caso deve ser usado um conjunto de padrões, segregado do conjunto total de padrões, para validação Métodos de segunda ordem Como pode ser visto no desenvolvimento do algoritmo back-propagation em Haykin (1999), o treinamento de redes neurais multicamadas é um problema de otimização não-linear de uma função de custo, que mede o erro quadrático médio calculado pela saída da rede neural frente a uma saída desejada. Existem na literatura vários métodos de otimização não-lineares, os quais podem ser aplicados ao problema de treinamento de redes neurais, para minimização do erro. O algoritmo back-propagation apresentado na seção é uma implementação baseada no método do gradiente. No método do gradiente, o vetor de parâmetros (pesos) é ajustado na direção oposta ao do vetor gradiente. O método do gradiente é classificado como um método indireto de primeira ordem, já que utiliza apenas a informação do gradiente (primeira derivada) da função de custo para o ajuste dos pesos da rede. Os métodos de primeira ordem são conhecidos por serem ineficientes no tratamento de problemas de larga escala, pois apresentam taxas de convergência muito pobres, especialmente em regiões próximas a mínimos locais (Iyoda, 2000) Do ponto de vista da direção de busca, o método do gradiente pode ser interpretado como sendo ortogonal a uma aproximação linear da função de custo em determinado ponto (Edgar e Himmelblau, 1988). Nos métodos indiretos de segunda ordem, além do vetor gradiente da função objetivo, faz-se também o uso da matriz Hessiana (matriz de derivadas de segunda ordem) da função erro. Na literatura referente à otimização não-linear, uma classe de algoritmos de segunda ordem é apontada como apropriada para problemas de larga escala (Silva, 1998). Apesar de notadamente superiores aos métodos de primeira ordem, os métodos de segunda ordem também apresentam desvantagens, sendo a principal delas o alto custo computacional associado ao cálculo e armazenamento da matriz Hessiana. Um dos algoritmos de segunda ordem mais rápidos para o treinamento de RNAs de tamanho moderado (Jones et al., 2005) é o algoritmo proposto por Levemberg Marquardt, uma variação do método de Newton (Edgar e Himmelblau, 1988) que aproxima localmente a superfície de erro por uma função quadrática, mas que simplifica o cálculo da matriz Hessiana usando apenas a matriz Jacobiana (Matriz de derivadas de primeira ordem com relação aos pesos e termos de polarização da RNA) (Silva, 1998).

46 2.3 Redes neurais artificiais 25 Neste trabalho, para o treinamento das RNAs, será usado basicamente o algoritmo proposto por Levemberg Marquardt Generalização em RNAs Capacidade de generalização é a capacidade de uma RNA, devidamente treinada, responder coerentemente a padrões desconhecidos. Ao termo padrões desconhecidos fica subentendido que seja um conjunto de padrões extraído da mesma população dos conjuntos de dados de treinamento, ou seja, dados com mesmas características estatísticas dos padrões de treinamento. Segundo Teixeira (2001), a capacidade de generalização não é uma propriedade inerente às RNAs, ou seja, ela não é facilmente obtida simplesmente submetendo a rede à fase de treinamento. Alguns fatores devem ser levados em consideração para se obter uma RNA com elevada capacidade de generalização. Basicamente a generalização em uma RNA tem influência dos seguintes fatores: tamanho e representatividade estatística do conjunto de dados de treinamento; arquitetura da rede neural; complexidade física do problema abordado. Não existe uma regra para escolher o tamanho do conjunto de treinamento. Cada problema abordado requer uma quantidade de amostras capaz de representá-lo. Este parâmetro não é de simples estimativa, dado que o domínio do problema nem sempre é conhecido a priori. A escolha da arquitetura do modelo neural adequada à complexidade do problema é um dos maiores desafios no estudo da capacidade de generalização. Modelos com arquiteturas muito grandes elevam a complexidade do modelo. Quando a complexidade do modelo é maior que a necessária para modelar o problema, a rede fica super-ajustada aos dados de treinamento, respondendo inadequadamente aos padrões de validação e teste. Este fenômeno de super-ajuste do modelo aos dados de treinamento é comumente chamado de overfitting e, reduz a capacidade de um modelo generalizar. Porém se a complexidade do problema supera a complexidade do modelo, este não é capaz de descrever e representar o domínio do problema, caracterizando assim o fenômeno de sub-ajuste ou underfitting. A Figura 2.13 ilustra o que pode ocorrer com o erro de generalização quando sob os efeitos de sub-ajuste e super-ajuste aos dados e treinamento.

47 2.3 Redes neurais artificiais F. Geradora F. Geradora F. Geradora Padrões treinamento Padrões treinamento Padrões treinamento 1.5 Saída RNA 1.5 Saída RNA 1.5 Saída RNA (a) Underfitting (b) Ajuste Adequado (c) Overfitting Figura 2.13: Problema do ajuste do modelo - Underfitting, Ajuste Adequado e Overfitting. Na Figura 2.13 a função geradora é uma senóide que varia de 0 a 2π e que foi contaminada por um ruído de média 0 e desvio padrão 1. Apenas os pontos nas figuras foram submetidos às RNAs para treinamento. Como pode ser verificado na Figura 2.13(a), a RNA não foi capaz de modelar toda a complexidade do problema, gerando um modelo neural pobre em termos de generalização. Já na Figura 2.13(c) o modelo neural criado superou a complexidade da função geradora, passando a modelar o ruído presente nos dados, ficando também mal ajustado à função geradora. Apenas na Figura 2.13(b) o ajuste do modelo está compatível com a complexidade do problema e nota-se que a RNA buscou modelar a função geradora. Os fenômenos de underfitting e overfitting afetam sobremaneira a capacidade de generalização das RNAs e buscar um equilíbrio pode ser uma tarefa árdua. Esses fenômenos são influenciados pelo tamanho do conjunto de treinamento, pelo número de épocas de treinamento, e também pelo número de parâmetros livres (pesos) da RNA. Equilibrar os efeitos de underfitting e overfitting se configura num dos principais desafios no projeto de RNAs e é abordado como o dilema entre polarização e variância (Geman et al., 1992). Existem na literatura várias estratégias que objetivam soluções com elevada capacidade de generalização, como o Early Stopping, a Regularização Bayesiana, o algoritmo de pruning Optimal Brain Surgeon e o método de Ensemble Modelling, entre vários outros. Nas próximas seções deste capítulo será realizada uma breve introdução em cada uma das estratégias citadas e, no capítulo 4, serão apresentados os resultados obtidos com a implementação dessas estratégias no problema de predição de propriedades mecânicas de aços de alta resistência microligados laminados a frio e revestidos por imersão a quente.

48 2.3 Redes neurais artificiais Parada antecipada do treinamento A parada antecipada do treinamento (Early Stopping) é uma técnica, proposta por Weigend et al. (1990) e citada em Teixeira (2001), baseada na divisão do conjunto de padrões em pelo menos dois conjuntos distintos, mas com mesma representatividade estatística, chamados normalmente de conjuntos de treinamento e validação. O conjunto de treinamento é o único conjunto a ser usado durante o treinamento para a atualização dos parâmetros da RNA (pesos e termos de polarização). O conjunto de validação é um conjunto através do qual, durante o treinamento, será também calculado um erro (erro de validação) cuja finalidade é monitorar o nível de ajuste (fitting) da RNA aos dados de treinamento. O erro de validação deve ser monotonicamente decrescente a partir do início do treinamento, que deve ser interrompido no momento em que este erro começar a crescer, embora o erro de treinamento ainda seja decrescente. Este sintoma indica que o treinamento está levando a RNA à uma condição de sobreajuste e para evitá-lo, o treinamento é interrompido e os parâmetros da RNA na época anterior são considerados como os parâmetros finais obtidos com o treinamento. A Figura 2.14 mostra o comportamento dos erros de treinamento e de validação no treinamento com dados ruidosos. Figura 2.14: Comportamento dos erros de treinamento e validação no treinamento com dados ruidosos.

49 2.3 Redes neurais artificiais 28 Dessa forma, o treinamento usando a estratégia de parada antecipada do treinamento busca elevar a capacidade de generalização do modelo, baseando-se na minimização do erro de validação, que é usado como critério de parada do algoritmo (Haykin, 1999). Na sequência será apresentado o algoritmo de regularização bayesiana, que ao contrário do algoritmo de parada antecipada, regula a complexidade do modelo Algoritmo de regularização bayesiana Este algoritmo, proposto por Mackay (1992), além de buscar a minimização da função de erro, controla também a complexidade do modelo, de forma a se obter uma RNA com alta capacidade de generalização. O objetivo inicial do treinamento das RNAs é a minimização da função de custo sendo ε D a soma do erro quadrático dada pela equação 2.13 F = ε D, (2.12) ε D = n (d i y i ) 2, (2.13) i=1 sendo n é o número de padrões de treinamento, d e y sendo respectivamente a saída desejada e a saída da RNA para o padrão i. Um segundo objetivo do treinamento da RNA é que esta responda satisfatoriamente a padrões desconhecidos. Quando uma RNA responde bem a padrões desconhecidos diz-se que ela generaliza bem. À luz deste segundo objetivo, a função de custo F é modificada adicionando-se um termo adicional, o termo de regularização ε W. Dessa forma, a função de custo modificada pode ser descrita pela Equação 2.14 F = βε D + αε W, (2.14) sendo ε W a soma dos quadrados dos pesos da RNA, β e α novos parâmetros da função de custo, chamados parâmetros de regularização e cujo valor relativo define a ênfase do treinamento (Foresee e Hagan, 1997). Se α<<βotreinamento dará ênfase à minimização do erro quadrático da RNA, mas se α>>βaênfase será para a um modelo que forneça respostas mais suaves pois a minimização da complexidade do modelo (redução dos valores dos pesos) foi priorizada. O principal problema com a implementação de técnicas de regularização é a determinação dos melhores valores para os parâmetros de regularização da função objetivo (Foresee e Hagan, 1997).

50 2.3 Redes neurais artificiais 29 Na regularização bayesiana α e β são obtidos iterativamente, livrando o usuário desta árdua tarefa Algoritmo de Pruning Optimal brain surgeon Os algoritmos de pruning são caracterizados por alterarem a estrutura das RNAs durante o treinamento. A estrutura das RNAs pode ser alterada de duas formas diferentes: através da adição de termos de penalidade à função objetivo, por exemplo a adição de um termo proporcional à magnitude dos pesos da RNA, o que favoreceria soluções com pesos de baixa magnitude. O algoritmo de treinamento weight decay (Hinton, 1989) classificase neste grupo; através da remoção de elementos que afetam menos a função do erro. Esta estratégia pode reduzir a estrutura do modelo (número de parâmetros livres) produzindo soluções eficientes. Os algoritmos Optimal brain damage (LeCun et al., 1990) e Optimal brain surgeon (Hassibi et al., 1993) classificam-se neste segundo grupo. O algoritmo de pruning Optimal brain surgeon (OBS) faz o ajuste de complexidade alterando a estrutura da rede. Inicialmente, treina-se uma rede superdimensionada para o problema em questão e após este treinamento, os pesos são eliminados temporariamente e um cálculo indicando como cada peso da rede afeta a função de erro é realizado. Este cálculo recebe o nome de cálculo de saliências e os pesos que apresentarem menores saliências são eliminados. Uma vez eliminados, um re-treinamento deve ser feito para a nova arquitetura. Para o cálculo da saliência é utilizada uma aproximação por série de Taylor da função de custo pela qual pode-se predizer o efeito de uma perturbação no vetor de pesos (Teixeira, 2001). O ponto de partida na construção do modelo OBS é a aproximação por série de Taylor da função de custo ε (w) pela qual pode-se predizer o efeito de uma perturbação no vetor de parâmetros w (pesos). Considerando uma perturbação w nos parâmetros, tem-se: ε (w + w) =ε (w)+g T (w) w wt H (w) w + O ( w 3), (2.15) sendo g (w) o vetor gradiente avaliado em w e H (w) a matriz Hessiana também avaliada em w. O objetivo é encontrar um conjunto de parâmetros w tais que quando estes são eliminados, a função ε (w) tenha um incremento dentro de uma faixa permitida.

51 2.3 Redes neurais artificiais 30 Para isso, algumas aproximações são necessárias. Considerando que os parâmetros só são eliminados depois do processo de treinamento ter convergido, significa que w representa um ponto de mínimo local ou global da superfície de erro e isso implica que o gradiente em w é0, ou g T (w) =0 Fazendo uma aproximação quadrática da superfície de erro no ponto de mínimo, significa que os termos de ordem superior a 2 podem ser eliminados, isso significa que O ( w 3 )=0. Com essas duas aproximações, a Equação 2.15 fica: ε (w + w) =ε (w)+ 1 2 wt H (w) w. (2.16) tem-se Chamando de ε (w) =ε (w + w) ε (w), (2.17) ε (w) = 1 2 wt H (w) w. (2.18) No algoritmo Optimal brain damage (OBD), para redução do custo computacional, é feita a aproximação considerando a matriz Hessiana diagonal. Essa aproximação não é feita no algoritmo OBS. Dessa forma, pode-se considerar o algoritmo OBD como um caso particular do algoritmo OBS (Haykin, 1999). Como já fora mencionado, a meta do algoritmo OBS é zerar algum peso de forma que o incremento em ε (w + w), ε (w), seja mínimo. Seja w i (n) esse peso. Nesse caso, a eliminação desse peso é equivalente à condição w i + w i =0. (2.19) ou 1 T i w + w i =0, (2.20) sendo 1 i o vetor unitário cujos elementos são todos zero, exceto para o i-ésimo elemento, que tem o valor 1. Tem-se então um problema com dois níveis de minimização. Uma minimização é sobre os vetores de pesos que permanecem após o i-ésimo vetor ter sido feito igual a zero easegunda minimização é sobre qual vetor será eliminado.

52 2.3 Redes neurais artificiais 31 Para solucionar esse problema de otimização restrito, constrói-se primeiramente o Lagrangeano S = 1 2 wt H (w) w λ ( 1 T i w + w i), (2.21) sendo λ o multiplicador de Lagrange. Tomando a derivada do Lagrangeano S com relação a w, aplicando a restrição da Equação 2.20, fazendo a inversão da matriz, chega-se que a ótima variação no vetor de pesos w é: w i w = H 1 1 [H 1 i, (2.22) ] i,i e o valor ótimo correspondente do Lagrangeano S para o elemento w i é S i = w 2 i 2[H 1 ] i,i, (2.23) sendo H 1 a inversa da matriz Hessiana H (w), e[h 1 ] i,i o i-ésimo elemento dessa matriz inversa. O Lagrangeano S i otimizado com relação a w, sujeito à restrição do i-ésimo peso ter sido eliminado, é chamado a saliência de w i. A saliência representa o incremento no erro médio quadrático resultante da remoção de w i. Nota-se da Equação 2.23 que a saliência é proporcional a wi 2, sinalizando que pesos com valores pequenos têm pequeno efeito sobre o erro médio quadrático. No algoritmo OBS o peso correspondente à menor saliência é selecionado para remoção. Na próxima seção será apresentado o método de ensemble modelling, também desenvolvido com objetivo de se elevar a capacidade de generalização das RNAs Método ensemble modelling O termo ensemble vem sendo usado em textos em língua portuguesa em função da não existência de uma tradução adequada que exprima fielmente a essência da metodologia que o mesmo representa (Lima, 2004). Dessa forma, neste trabalho o termo também será empregado na sua forma mais usual. Um ensemble consiste de um conjunto de regressores ou classificadores que fornecem uma saída global baseada numa combinação das saídas individuais de cada um dos seus membros, com o objetivo de se obter um desempenho que seja superior ao desempenho individual de cada componente.

53 2.4 Sistemas híbridos neuro-fuzzy 32 Segundo Lima (2004), em função dos bons resultados apresentados pelo método, é vasta a gama de aplicações tanto para classificação de padrões quanto para regessão. Em Sharkey (1999) citado por Castro et al. (2005), os melhores resultados para a predição de séries temporais são obtidos pela combinação de diferentes modelos e não pela seleção do melhor modelo individual. No caso de ensemble de RNAs, Perrone e Cooper (1993) sugerem que as RNAs componentes do ensemble devam ter diferentes arquiteturas, devam ser treinadas com algoritmos diferentes e tambem com conjuntos de dados de diferentes. Segundo Yang e Linkens (2001), a aplicação desta técnica apresenta melhoria na robustez, capacidade de predição e generalização do modelo neural. Como citado por Lima (2004), há várias propostas para a geração da saída de um ensemble de RNAs, sendo predominante o voto majoritário para problemas de classificação e média simples, ou média ponderada, para problemas de regressão. Já em Castro et al. (2005) foi implementado um ensemble a partir de três RNAs do tipo MLP treinadas com algoritmos diferentes e a combinação do ensemble foi gerada a partir de um neurônio de saída com função de ativação linear. Para a predição de limite de escoamento de aços, Yang e Linkens (2001) implementaram um ensemble de dez RNAs do tipo MLP e usaram como saída do ensemble a média simples das saídas das RNAs componentes. Tendo em vista a grande ênfase dada à pesquisa de métodos ensemble e os resultados obtidos pela aplicação dos mesmos, decidiu-se neste trabalho pela sua implementação. 2.4 Sistemas híbridos neuro-fuzzy Apesar de a técnica de modelagem fuzzy ser largamente aplicada em controle, predição e inferência, ela apresenta algumas desvantagens, citadas por Jang (1993): 1. não existe uma maneira formal de se transformar o conhecimento de especialistas em uma base de regras de um sistema fuzzy; 2. uma vez criadas as funções de pertinência do sistema fuzzy, não existem métodos efetivos para sintonia destas funções, de forma a se elevar o desempenho do sistema.

54 2.4 Sistemas híbridos neuro-fuzzy 33 Por outro lado, as RNAs também apresentam limitações, como por exemplo, a maneira pela qual o conhecimento está representado. Pelo fato de ser um modelo "caixa preta", o modelo neural não contribui para o entendimento físico do sistema. Com a perspectiva de superar as limitações apresentadas pelos sistemas fuzzy e pelas RNAs, várias propostas tem sido realizadas (Abraham, 2001), onde se aliam as vantagens de cada técnica. Aliam-se a representação explícita do conhecimento e a capacidade de tratar informações linguísticas da lógica fuzzy à capacidade de aprendizagem das redes neurais artificiais (Haykin, 1999) de forma complementar, combinando os méritos de cada uma das técnicas em uma única nova técnica, mais versátil e também mais próxima das habilidades humanas. Nesse contexto, Jang (1993) propôs uma nova arquitetura chamada ANFIS (Adaptive Neuro Fuzzy Inference System) que mantinha as características básicas dos sistemas fuzzy mas tinha incorporadas as propriedades de adaptação das RNAs. Na próxima seção o sistema híbrido ANFIS será introduzido, uma vez que apenas este sistema híbrido neuro-fuzzy será abordado e aplicado neste trabalho O sistema ANFIS O sistema ANFIS pode ser considerado um subconjunto especial das RNAs alimentadas adiante com capacidade de aprendizado supervisionado (Jang, 1993). A Figura 2.15 ilustra a arquitetura do sistema ANFIS equivalente ao sistema de inferência nebulosa do tipo 3 (Sugeno) apresentado na seção O sistema do tipo 3, ilustrado novamente na Figura 2.15(a) foi selecionado porque este será o sistema implementado neste trabalho, cujos resultados são apresentados no capítulo 4. Na arquitetura ilustrada na Figura 2.15(b) pode-se observar uma rede alimentada adiante (feedforward) com 2 entradas, 1 saída, 5 camadas (sendo três camadas intermediárias), e com nodos representados por quadrados e círculos. Os nodos representados por quadrados são nodos adaptativos, enquanto os circulares são fixos (não adaptativos). Considerando como exemplo o sistema ANFIS da Figura 2.15(b), no qual tem-se duas entradas x e y, cada entrada com duas funções de pertinência A 1, A 2, B 1 e B 2, uma saída f e, considerando ainda as seguintes regras: regra 1: Se x é A 1 e y é B 1, então f 1 = p 1 x + q 1 y + r 1, regra 2: Se x é A 2 e y é B 2, então f 2 = p 2 x + q 2 y + r 2,

55 2.4 Sistemas híbridos neuro-fuzzy 34 Figura 2.15: (a) Sistema de inferência nebuloso tipo 3 (Sugeno) com 2 entradas; (b) sistema ANFIS equivalente. pode-se descrever a função de saída de cada nodo, como mostrado em Jang et al. (1997) e apresentado a seguir. Seja O j,i a saída de cada nodo, onde j é a camada e i é o nodo: camada 1 - Nodos adaptativos - Nebulização; O 1,i = µ Ai (x), para i =1,2 O 1,i = µ Bi 2 (y), para i =3,4 sendo µ A e µ B as funções de pertinência das entradas x e y. camada 2 - Nodos fixos - Disparo das regras; O 2,i = w i = µ Ai (x) µ Bi (y), para i =1,2. camada 3 - Nodos fixos - Normalização do disparo das regras; O 3,i = w i = w i w 1 +w 2, para i =1,2.

56 2.4 Sistemas híbridos neuro-fuzzy 35 camada 4 - Nodos adaptativos - Cálculo da saída de cada regra; O 4,i = w i f i O 4,i = w i (p i x + q i y + r i ), para i =1,2. sendo p i, q i,er i os parâmetros da função linear de saída camada 5 - Nodos fixos - Cálculo da saída O 5,1 = w i f i = i w if i i i w, para i =1,2. i O treinamento do sistema ANFIS O treinamento do sistema ANFIS, chamado de treinamento híbrido, difere do treinamento das RNAs, do tipo MLP usando o algoritmo back-propagation, em dois aspectos: o ajuste dos parâmetros da rede ocorre nos dois sentidos, tanto no passo forward quanto no passo de retropropagação do erro (backward); para cada sentido do fluxo de sinal é usado um algoritmo diferente para o ajuste dos parâmetros. A Tabela 2.2 apresenta um resumo do treinamento híbrido do sistema ANFIS. Tabela 2.2: Treinamento híbrido do sistema ANFIS. Parâmetros ajustados Passo forward Passo backward Funções de Pertinência (não lineares) fixos Descida do gradiente Funções de saída (lineares) Mínimos quadrados fixos O algoritmo do treinamento híbrido pode ser visto com mais detalhes em Jang (1993) e Jang et al. (1997) Um dos grandes desafios na modelagem de sistemas não lineares multivariáveis é a seleção das variáveis de entrada importantes para o modelo dentre todo o conjunto das variáveis de entrada. Do ponto de vista da modelagem, a incorporação apenas das variáveis importantes propicia modelos mais simples, mais úteis, mais confiáveis e mais práticos (Chiu, 1996). Ainda

57 2.4 Sistemas híbridos neuro-fuzzy 36 segundo Chiu (1996), do ponto de vista de controle, o entendimento da importância relativa das variáveis permite aos engenheiros de controle focar seus esforços nas variáveis que realmente interessam, reduzindo tempo e custos envolvidos na busca de set-points adequados para variáveis não importantes. No desenvolvimento de sistemas híbridos neuro-fuzzy o número de entradas do sistema pode tornar o desenvolvimento do sistema altamente custoso do ponto de vista computacional, podendo até mesmo inviabilizá-lo. Dessa forma, modelos mais simples envolvendo apenas as variáves mais importantes devem ser pesquisados. Na próxima seção serão introduzidos métodos de seleção das variáveis de entrada mais importantes Seleção das entradas para o sistema ANFIS Em Chiu (1996) são apresentados os métodos forward selection e backward-selection. O método forward selection envolve sistematicamente a geração de modelos nos quais o número de variáveis de entrada cresce gradualmente em função da avaliação de determinado critério, por exemplo a raiz quadrada do erro médio quadrático (RMSE) do modelo, que deve ser monotonicamente decrescente. O método forward selection pode ser descrito de acordo com o seguinte procedimento: 1. avaliar o desempenho de n sistemas cada 1 com apenas 1 variável de entrada candidata; 2. acrescentar permanentemente a variável associada ao sistema que apresentou o melhor desempenho; 3. se ainda existirem variáveis não adicionadas ao sistema, acrescentar temporariamente cada uma das variáveis e ir para o passo 4. Senão ir para o passo 5; 4. avaliar o desempenho dos sistemas acrescidos com cada variável de entrada candidata e ir para o passo 2; 5. selecionar o melhor conjunto de variáveis entre os conjuntos gravados no passo 2. Por outro lado, no método backward selection, parte-se de um modelo com todas as possíveis variáveis de entrada e a partir da remoção das variáveis chega-se a um conjunto de entradas cujo critério de avaliação aponta como ótimo.

58 2.4 Sistemas híbridos neuro-fuzzy 37 O método backward selection pode ser descrito de acordo com o seguinte procedimento: 1. avaliar o desempenho de um sistema com todas as n variáveis de entrada candidatas; 2. remover temporariamente cada uma das variáveis de entrada gerando-se n sistemas com n 1 variáveis; 3. avaliar o desempenho dos n sistemas do item 2 e remover permanentemente a variável associada ao sistema que apresentou melhor desempenho; 4. se ainda existirem variáveis remanescentes no sistema, ir para o passo 2 para eliminar outra variável. Senão ir para o passo 5; 5. selecionar o melhor conjunto de variáveis entre os conjuntos gravados no passo 3. Como pode ser visto nos dois procedimentos, embora o erro (RMSE) deixe de ser monotonicamente decrescente, os métodos continuam até se acrescentar todas as possíveis variáveis no caso do forward selection, ou remover todas as variáveis no caso do backward selection. Neste trabalho, foram implementados os dois métodos, mas em ambos os casos o processo foi interrompido quando o RMSE deixou de ser monotonicamente decrescente. Para tentar agilizar o processo de seleção de variáveis foi implementado também um terceiro método de seleção das variáveis de entrada mais importantes para o modelo. Esse terceiro método parte de um conjunto de variáveis apontadas pela RNA como as que tem maior influência em cada saída. Essa influência é medida através da análise de sensibilidade, descrita no capítulo 4, das saídas da RNA a cada uma das variáveis de entrada. A partir desse conjunto base de variáveis de entrada, aplica-se o método forward selection para acrescentar variáveis que promovam o desempenho do sistema. 4. Os resultados da implementação de cada um dos três métodos são apresentados no capítulo

59 Capítulo 3 Descrição do Processo 3.1 Introdução Inicialmente, este capítulo descreve de forma resumida todo o processo de produção de aços planos numa usina siderúrgica integrada a coque. Em seguida, são apresentadas e detalhadas as propriedades mecânicas dos aços. Na sequência são apresentados os aços de alta resistência microligados do ponto de vista metalúrgico, identificando de acordo com a literatura, a influência da composição química e dos parâmetros de processo nas referidas propriedades destes aços. Finalmente é apresentada a máquina de ensaio de tração da USIMINAS, na qual foram realizados os ensaios para a obtenção das propriedades mecânicas dos aços de alta resistência microligados, laminados a frio e revestidos por imersão a quente, objeto deste trabalho. 3.2 O processo de produção de tiras de aço em uma usina integrada a coque Basicamente, o aço é uma liga de ferro e carbono. O ferro, que não existe puro na natureza, é encontrado em toda a crosta terrestre associado ao oxigênio e à sílica. O minério de ferro é um óxido de ferro, misturado com areia fina. O carbono é também relativamente abundante na natureza e pode ser encontrado sob diversas formas. Na siderurgia, o carbono é obtido do carvão mineral, e em alguns casos do carvão vegetal (Ramos, 2002). De acordo com o Instituto Brasileiro de Siderurgia (IBS, 2006) as usinas siderúrgicas, segundo o seu processo produtivo, classificam-se como:

60 3.2 O processo de produção de tiras de aço em uma usina integrada a coque 39 integradas - que operam as três fases básicas: redução, refino e laminação; semi-integradas - que operam duas fases: refino e laminação. Estas usinas partem de ferro gusa, ferro esponja ou sucata metálica, adquiridos de terceiros, para transformá-los em aço em aciarias elétricas seguindo-se sua posterior laminação; não integradas - que operam apenas uma fase do processo: redução ou laminação. No primeiro caso estão os produtores de ferro gusa, os chamados guseiros, que têm como característica comum o emprego de carvão vegetal em altos fornos para redução do minério. No segundo, estão os relaminadores, geralmente de placas e tarugos, adquiridos de usinas integradas ou semi-integradas, e os que relaminam material sucatado. A usina na qual este trabalho foi aplicado pertence ao Sistema Usiminas 1. Esta unidade produtiva, Usina Intendente Câmara, está situada em Ipatinga, região de Minas Gerais conhecida como Vale do Aço, a 220 quilômetros da capital. A Usina fica próxima a uma das maiores reservas de minério de ferro do mundo, o Quadrilátero Ferrífero de Minas Gerais. A Usina Intendente Câmara produz e comercializa aços sob a forma de placas, laminados planos a quente e a frio, revestidos ou não, atendendo a segmentos estratégicos da economia, como indústria automobilística, autopeças, ferroviária, naval, de construção civil, agrícola, de embalagens, mecânico, eletroeletrônico, de utilidades domésticas, máquinas e equipamentos e de distribuição. Como uma usina siderúrgica integrada a coque, a Usina Intendente Câmara prepara previamente o minério e o carvão para em seguida serem levados aos altos-fornos onde é produzido o ferro gusa, que é levado para a aciaria, ainda em estado líquido, para ser transformado em aço, mediante a queima de impurezas e adições. Após a transformação do ferro gusa em aço e este ser solidificado na forma de placas, toma lugar a última etapa clássica do processo de fabricação do aço, a laminação. O aço, solidificado, é deformado mecanicamente e transformado em produtos siderúrgicos utilizados pela indústria de transformação. A Figura 3.1 apresenta todo o fluxo de produção 2 de uma usina integrada a coque. 1 Informações adicionais em 2 O fluxo de produção, completo e com animação, da Usina Intendente Câmara pode ser acessado em http: //

61 3.3 Etapas do processo 40 Figura 3.1: Fluxo de produção de uma usina siderúrgica integrada a coque. 3.3 Etapas do processo Como mencionado na seção 3.2 o processo de produção de aço em uma siderúrgica integrada a coque pode ser dividido em quatro abrangentes etapas seqüenciais. São elas: 1. preparação do minério e do carvão; 2. redução do minério de ferro; 3. refino; 4. conformação mecânica. Nesta seção cada uma das etapas será discutida com mais detalhes.

62 3.3 Etapas do processo Preparação do minério e do carvão A primeira etapa, a preparação do minério e do carvão, é constituída por dois processos: a coqueificação e a sinterização, que preparam o carvão e a maior parte do minério de ferro para, juntamente com minério de ferro em pelotas e outros materiais, alimentarem os equipamentos de produção de ferro líquido (ferro-gusa) que são os altos-fornos (Ramos, 2002). A coqueificação é um processo realizado na coqueria. O coque é um importante elemento siderúrgico constituído à base de mistura de vários tipos de carvão mineral metalúrgico. Ele é o elemento energético na mistura coque, sinter, pelotas e outros para a obtenção do ferro-gusa líquido (Ramos, 2002). A sinterização é um processo realizado a alta temperatura no forno de sinterização, onde é feita a mistura de minérios de ferro de granulometria fina (pó) com aglomerantes de finos (ou fundentes), protetores de refratários e formadores de escória (conferem basicidade à escória) e elementos protetores de lança do convertedor (soprador de oxigênio). Alguns destes elementos misturados ao minério são: calcário, cal fina, dolomita, dunito, manganês, óxido de titânio, coque fino, antracito, alcatrão, etc (Ramos, 2002). O produto gerado neste processo recebe o nome de sinter, que é um material sólido, amorfo, com tamanho bem definido e poroso, com o objetivo de facilitar a troca e o fluxo de calor e de gases dentro de um alto-forno, facilitando o processo de redução, ou seja, a retirada de oxigênio (Ramos, 2002) Redução do minério de ferro A redução do minério de ferro é a retirada do oxigênio existente no óxido de ferro, por isto o uso do termo redução, fazendo uma alusão ao termo redução de oxigênio, muito conhecido no meio químico. Esse processo é realizado em um alto-forno. É no alto-forno que são misturados o coque com o sinter e outras cargas metálicas (minério de ferro, por exemplo). Como resultado deste processo tem-se o ferro-gusa líquido, que é uma liga ferro carbono com alto teor de carbono e de impurezas, portanto, ainda não se trata de aço (Ramos, 2002). O ferro-gusa líquido é vazado em um vagão de transporte chamado carro torpedo, onde sofre um pré-refino, que é o processo de dessulfuração. Após isto, o carro torpedo transporta este material até a aciaria, onde será iniciado o refino propriamente dito (Ramos, 2002). A Figura 3.2 apresenta o fluxo de produção das etapas de preparação do minério e do carvão e redução do minério de ferro.

63 3.3 Etapas do processo 42 Figura 3.2: Fluxo de produção da redução do minério de ferro Refino O gusa líquido, produzido nos altos fornos, apresenta em sua composição química teores de enxofre num patamar elevado para atender a maioria das especificações dos produtos. A etapa de refino objetiva basicamente a adequação da composição química do aço com relação às características desejadas do produto final, removendo elementos indesejáveis, como o enxofre em excesso, e adicionando outros elementos em função das necessidades. (Araújo, 2003). O refino primário (que ocorre no equipamento de fusão - convertedor) tem como objetivo básico o ajuste dos teores de carbono, enxofre e fósforo. No refino secundário (que ocorre fora do convertedor) são realizados ajustes finos nos teores de hidrogênio, carbono, enxofre e na quantidade e forma das inclusões. No refino primário, o processo de sopro de oxigênio caracteriza-se pelas reações de oxidação parcial do carbono, manganês, silício, fósforo e outros elementos contidos no gusa líquido. O refino primário permite também a redução do teor de fósforo, estabilizado em uma escória básica, formada durante esta etapa. Durante o sopro são adicionados fundentes, que formam juntamente com os óxidos obtidos a partir de reações do silício, manganês e ferro uma escória, que tem por finalidade fixar as substancias indesejáveis. O volume de oxigênio soprado é definido em função das matérias primas utilizadas além do carbono e temperatura previstos no fim de sopro (Oliveira, 1994). No final do sopro, mede-se a temperatura do banho, retiram-se amostras de aço e escória. Então, o convertedor é basculado e o aço líquido é vazado para uma panela onde são adicionados os ferro-ligas (desoxidação) que conferem ao aço as propriedades mecânicas especificadas para o

64 3.3 Etapas do processo 43 produto. O processo de refino secundário de aços consiste em um enobrecimento do produto através da utilização de equipamentos como o desgaseificador a vácuo, a estação de ajuste de composição química e temperatura, forno panela. São removidas impurezas prejudiciais às propriedades mecânicas e às características desejadas para o aço (Araújo, 2003). O desgaseificador a vácuo é um equipamento destinado à retirada de gases, desoxidação e limpidez dos aços. Os gases como hidrogênio e nitrogênio são assim retirados (Araújo, 2003). Outro equipamento de refino secundário é o forno panela, que consiste de uma abóboda que cobre a panela de aço líquido. Tem como principais funções o aquecimento, a dessulfuração do aço, o ajuste de composição química em faixas estreitas, a melhoria de limpidez e o controle da morfologia de inclusões não metálicas. Após o completo tratamento de refino secundário, o aço líquido está pronto para ser lingotado, ou seja, transformado em placas de aço. As placas produzidas na aciaria têm dimensões usuais com espessuras entre 200 e 250 mm e entre 9 e 15 m de comprimento (Araújo, 1997). A Figura 3.3 apresenta o fluxo de produção da etapa de refino. Figura 3.3: Fluxo de produção da etapa de refino do aço.

65 3.3 Etapas do processo Conformação mecânica Conformação mecânica é o nome genérico dado aos processos em que se aplica uma solicitação mecânica em metais, que respondem com uma mudança permanente de dimensões (Cacciopoli, 1987). O volume e a massa do metal se conservam nestes processos. A laminação é um processo de conformação mecânica que essencialmente consiste em modificar a seção transversal de um metal na forma de barra, lingote, placa, fio, tira, etc., pela passagem entre dois cilindros com geratriz retilínea (laminação de produtos planos) ou contendo canais entalhados de forma mais ou menos complexa (laminação de produtos não planos) e que giram à mesma velocidade periférica, mas em sentidos contrários. O laminador é o equipamento no qual se realiza a operação de laminação e consiste basicamente de cilindros (ou rolos), mancais, uma carcaça chamada de gaiola ou quadro para fixar estas partes e um motor para fornecer potência aos cilindros e controlar a velocidade de rotação. O processo de laminação de aços planos pode ser divido em dois tipos básicos: laminação a quente - neste caso o material a ser laminado é aquecido previamente e a temperatura de trabalho se situa acima da temperatura de recristalização do material 3,a fim de reduzir a resistência à deformação plástica 4 em cada passagem e permitir a recuperação da estrutura do material, evitando o encruamento 5 para os passes subsequentes; laminação a frio - na laminação a frio o material entra no laminador à temperatura ambiente (abaixo da temperatura de recristalização) apresentando maior resistência à deformação e verifica-se o aumento dessa resistência com a deformação sofrida durante o processo. Os processos de laminação a quente e a frio, bem como os principais equipamentos envolvidos, serão apresentados mais detalhadamente nas seções e Laminação a quente Esta etapa do processo tem a finalidade de transformar as placas produzidas na aciaria em tiras laminadas a quente, com larguras entre 610 a 2438 mm e espessuras entre 1,19 a 12,7 3 Temperatura na qual um metal com uma quantidade particular de deformação se recristalizará em um espaço de tempo definido (Barbosa e Santos, 1987). 4 Deformação plástica é aquela que permanece no metal após a remoção da carga (Barbosa e Santos, 1987). 5 A resistência mecânica de um metal aumenta à medida que esse metal é deformado mecânicamente. A esse processo de aumento de resistência do material por deformação plástica dá-se o nome de encruamento.

66 3.3 Etapas do processo 45 mm (Araújo, 1997). As tiras produzidas na laminação a quente podem ser produtos acabados com aplicação direta na fabricação de máquinas e equipamentos agrícolas, veículos médios e pesados, material ferroviário e naval, além de tubos de espessuras variadas; assim como podem posteriormente ser laminadas a frio, transformando-se em tiras laminadas a frio. Uma linha de laminação a quente é composta por três equipamentos principais, quais sejam: o forno de reaquecimento de placas, o laminador de desbaste e o trem acabador. O processo de laminação de tiras a quente consiste basicamente de duas fases: a fase de aquecimento, na qual as placas passam pelos fornos de reaquecimento; e a fase de laminação das placas (Araújo, 1997). A função principal dos fornos de reaquecimento é elevar a temperatura das placas a uma temperatura adequada para o processo de conformação, obedecendo curvas de aquecimento específicas para cada tipo de aço e garantindo a eficiência no controle da combustão, visando: baixo consumo de combustível; menor perda por carepa (mistura de óxidos de ferro); isenção de defeitos superficiais nas placas por excesso de aquecimento; eficiência operacional dos fornos. No caso dos aços microligados, o reaquecimento também deve permitir a dissolução dos elementos de microliga, para permitir a sua posterior precipitação durante a laminação. Após o reaquecimento das placas ocorre o desenfornamento e o transporte para a área do laminador de desbaste, um laminador intermediário, que tem a finalidade de desbastar as placas em esboços para posteriormente serem laminados pelo trem acabador. A finalidade do trem acabador é reduzir a espessura do esboço recebido, observando (atendendo) a temperatura, a espessura, a largura e a forma do material na saída do laminador. Na saída do trem acabador existe um sistema de resfriamento da tira para permitir diversas estratégias de resfriamento, trazendo como principal vantagem, a obtenção de um perfil térmico homogêneo ao longo da superfície da tira com conseqüente melhoria das propriedades mecânicas e metalúrgicas do produto (Silva et al., 2004). As temperaturas de acabamento e de bobinamento influenciam diretamente as propriedades mecânicas do produto (Barbosa et al., 2004), o que foi comprovado também pela análise de

67 3.3 Etapas do processo 46 sensibilidade em modelos de predição de propriedades mecânicas baseados em inteligência computacional (Tenner et al., 2001; Datta e Banerjee, 2005; Sterjovski et al., 2005). Finalmente, as tiras de aço são bobinadas para serem enviadas para o processo seguinte, a laminação a frio. A Figura 3.4 apresenta o fluxo de produção da laminação a quente. Figura 3.4: Fluxo de produção da laminação a quente Laminação a frio A unidade de laminação a frio reduz a espessura das chapas laminadas a quente, conferindolhes melhor qualidade superficial e características mecânicas adequadas a seu uso, direcionado especialmente para carrocerias de veículos leves, embalagens, auto-peças, utilidades domésticas e eletroeletrônico. Uma planta de laminação a frio é composta pelos seguintes equipamentos principais: decapagem, laminador contínuo a frio, limpeza eletrolítica, recozimento, laminador de encruamento e, no caso da produção de produtos revestidos, incluem-se linhas de galvanização eletrolítica e/ou por imersão a quente. O aço, após o processo de laminação a quente, recobre-se de uma camada formada por óxidos de distintas composições e espessura, que depende fundamentalmente da temperatura, do tempo de processo, das condições de resfriamento, do meio ambiente e do tipo de aço. A finalidade do processo de decapagem é a retirada da carepa (mistura de óxidos de ferro) da superfície da tira através de uma reação com ácido (IFT, 2005). Muitas são as variáveis que influenciam a taxa de decapagem, dentre elas: tipo de ácido, concentração de ferro e de ácido na solução, temperatura da solução, tipo de aço, quebrador de carepa antes da decapagem, utilização de inibidores e velocidade da tira dentro dos tanques

68 3.3 Etapas do processo 47 quando o processo é contínuo (IFT, 2005). No laminador a frio a espessura da tira laminada a quente é reduzida, à medida que a tira passa pelas cadeiras de laminação. Ao final do processo, a bobina laminada a frio encontrase na espessura desejada pelo cliente, porém ainda são necessários ajustes nas propriedades mecânicas. A deformação plástica imposta ao aço na laminação a frio introduz defeitos na rede cristalina que levam a uma drástica deterioração das propriedades mecânicas dos aços, tornando-o inadequado para as aplicações usuais. O material encontra-se altamente encruado, ou seja, com alta resistência mecânica e baixa ductilidade (IFT, 2005). A adequação das propriedades mecânicas das tiras laminadas a frio para as especificações dos clientes é obtida nos processos de recozimento e encruamento. O processo de recozimento consiste num tratamento térmico, com o objetivo de recuperar a ductilidade do material e remover as tensões internas oriundas do laminador de tiras a frio (Araújo, 2003). Basicamente, no recozimento, é realizado o aquecimento do aço a uma determinada temperatura, seguido de resfriamento lento, visando a recuperação das propriedades mecânicas através da recristalização dos grãos (IFT, 2005). Para o caso de tiras de aço laminadas a frio, existem basicamente dois tipos distintos de processos de recozimento: recozimento em caixa - Neste caso, as bobinas são empilhadas no interior de fornos, em recipientes vedados. O processo de recozimento em caixa consiste num tratamento térmico subcrítico (temperaturas abaixo de 727 o C). O processo de recozimento em caixa apresenta baixa produtividade, uma vez que o ciclo completo pode levar de 3 a 5 dias em média; recozimento contínuo - Neste caso, as bobinas são desbobinadas e processadas numa linha de processo contínua. Na linha, o material passa pelos fornos de aquecimento, encharque, resfriamento lento, resfriamento rápido, superenvelhecimento e resfriamento secundário. O processo de recozimento contínuo consiste num tratamento térmico intercrítico (temperaturas entre 700 o Ce850 o C). O processo de recozimento contínuo apresenta alta produtividade, se comparado com o recozimento em caixa, uma vez que uma bobina é processada em alguns minutos. O processo de recozimento contínuo apresenta ainda as vantagens de possibilitar a produção de produtos de maior valor agregado e a redução do custo de liga dos aços.

69 3.3 Etapas do processo 48 A principal finalidade da laminação de encruamento é a eliminação do patamar de escoamento definido 6, pois se o material após o processo de recozimento vier a ser estampado irá apresentar estrias em sua superfície. Há duas maneiras de se garantir que um material não apresente estrias ao ser estampado. A primeira seria deformá-lo por tração simples como num ensaio de tração, até o ponto em que o patamar de escoamento tenha sido eliminado. A segunda maneira, seria através da laminação de encruamento, que utiliza pressão e tração na deformação do material. Na laminação de encruamento elimina-se o patamar de escoamento definido com aplicação de deformações da ordem de 1%. No processo de galvanização a tira de aço pode ser revestida com uma fina camada de zinco, liga de zinco-níquel, liga de zinco-ferro ou liga de alumínio-zinco, com a finalidade de elevar a resistência à corrosão. O uso de aço galvanizado na fabricação de veículos tem sido uma solução eficiente contra a corrosão e se constitui numa tendência mundial (IFT, 2005). Existem basicamente dois tipos de processos de galvanização, o primeiro por eletrodeposição dos íons metálicos sobre a tira de aço e o segundo por imersão da tira num banho metálico. A linha contínua de galvanização por imersão a quente possui dentre as suas diversas seções, uma seção de recozimento, similar à uma linha de recozimento contínuo. Dessa forma, as tiras são primeiramente recozidas para em seguida serem revestidas. A Figura 3.5 apresenta o fluxo de produção da laminação a frio. Figura 3.5: Fluxo de produção da laminação a frio. 6 Região (patamar) existente na curva do ensaio de tração (tensão x deformação) quando o corpo de prova passa do regime plástico para o regime elástico (IFT, 2005).

70 3.4 Propriedades mecânicas de aços Conclusão da seção Como pode ser visto na seção 3.3 o processo completo de fabricação de tiras de aço revestidas é composto por vários subprocessos independentes e o tempo de produção de um determinado produto (lead-time) é elevado. As propriedades mecânicas dos aços são influenciadas em vários destes subprocessos, como no refino, na laminação a quente (aquecimento, laminação e resfriamento) e na laminação a frio (laminação, recozimento e encruamento). Essas considerações dificultam sobremaneira a modelagem das propriedades mecânicas através de técnicas de modelagem fenomenológica. Considerando ainda que o processo é realizado em larga escala, a realização de produção experimental apresenta custo elevado. Essas características corroboram o que já foi apresentado no capítulo 1 com relação à motivação principal para o desenvolvimento de uma ferramenta computacional, baseada nas técnicas de inteligência computacional, para auxílio no projeto de aços. Analisando cada um dos processos individualmente, desde o refino até a linha de galvanização por imersão a quente, e avaliando a influência de cada um nas propriedades mecânicas, chegou-se a um conjunto de 20 variáveis de entrada, distribuídas entre a composição química e dados dos processos de laminação a quente, laminação a frio e galvanização por imersão a quente. A Figura 3.6 apresenta o fluxo de produção completo identificando os processos onde foram coletados dados para serem usados no modelo. 3.4 Propriedades mecânicas de aços Conceitos básicos Um tipo de aço a ser selecionado para uma determinada aplicação deve reunir características adequadas para as condições de trabalho. Inicialmente devem ser identificadas as características mais importantes que o material deve apresentar (Askeland, 1994). Deve ser um material resistente, rígido ou dúctil? Estará sujeito a que tipo de esforço? Esforços repetitivos com altas cargas? Esforços instantâneos com cargas extremas? Altas tensões? Quais são as condições do ambiente de instalação do material? Ambiente com temperaturas extremas? Condições abrasivas? As propriedades mecânicas, Limite de escoamento, Limite de resistência à tração e Alongamento constituem características importantes para qualquer tipo de aço e são chamadas de propriedades fundamentais. Para efeito de certificação dos produtos, as propriedades fundamentais são obtidas através do ensaio de tração, onde um corpo de prova é submetido a um esforço de tração uniaxial

71 3.4 Propriedades mecânicas de aços 50 Figura 3.6: Fluxo de produção completo com identificação dos processos onde foram coletados dados para o modelo. Entradas: elipses cheias. Saída: elipse tracejada. crescente. As especificações quanto à forma e dimensões dos corpos de prova, velocidade de tensionamento e base de medida, entre outras, são ditadas por normas técnicas. Durante a realização do ensaio é registrada a força (que pode ser convertida em tensão, σ c ) versus a variação de comprimento do corpo de prova (que se converte em deformação, ε c ) até a ruptura do mesmo. Ao final do ensaio é obtida a curva de tensão versus deformação do corpo de prova, conforme apresentado na Figura Limite de escoamento - LE Segundo Askeland (1994), o limite de escoamento é a tensão na qual a deformação plástica se torna aparente, ou também, a tensão que divide o comportamento do material entre plástico e elástico. Na Figura 3.7 a tensão σ 1 corresponde ao limite de escoamento do material.

72 3.4 Propriedades mecânicas de aços 51 Figura 3.7: Diagrama tensão x deformação típico. Em referências de língua inglesa, é comum o uso da expressão yield strength para esse parâmetro Limite de resistência - LR Ainda segundo Askeland (1994), o limite de resistência é a máxima força aplicada no ensaio de tração, ou também, a maior tensão presente na curva tensão-deformação. Na Figura 3.7 a tensão σ 2 corresponde ao limite de resistência do material. Em referências de língua inglesa, é comum o uso das expressões ultimate strength e tensile strength para esse parâmetro Ductilidade - ALO Askeland (1994) define ductilidade como sendo uma medida da quantidade de deformação que um corpo de prova resiste sem se romper. Essa propriedade é obtida através da medição do comprimento do corpo de prova antes e após o ensaio. Na Figura 3.7 ε c corresponde à deformação do material. O alongamento percentual, calculado como na Equação 3.1, descreve

73 3.4 Propriedades mecânicas de aços 52 o quanto o material extende antes da ruptura. ALO(%) = l f l 0 l 0 100, (3.1) sendo l 0 o comprimento inicial e l f o comprimento final do corpo de prova. Pelo fato da ductilidade ser mensurada pelo alongamento, como pode ser visto na Equação 3.1, o alongamento é o termo mais comumente usado tanto na literatura quanto na siderurgia e na indústria Máquina de ensaio de tração da USIMINAS Os ensaios de tração cujos resultados foram utilizados no presente trabalho foram realizados no laboratório de testes mecânicos da USIMINAS, em amostras retiradas da produção real. As máquinas de ensaio são de fabricação INSTRON, modelo 4482, equipadas com um software para controle do ensaio, aquisição de dados e geração de resultados. As máquinas possuem ainda extensômetros digitais de alta resolução e acessórios para identificação, medição das dimensões e robôs para manuseio dos corpos de prova. A Figura 3.8 apresenta uma foto da máquina de ensaio de tração. Figura 3.8: Máquina de ensaio de tração.

74 3.5 Aços de alta resistência microligados 53 Após conceituadas as propriedades mecânicas e apresentada a máquina que realiza os ensaios de tração, na seção seguinte será apresentada uma introdução sobre os aços HSLA. 3.5 Aços de alta resistência microligados No passado, a demanda por aços de alta resistência era quase que exclusivamente restrita a produtos laminados a quente. Somente em meados da década de 1970 foi iniciada a produção destes materiais laminados a frio, visando principalmente o atendimento às exigências de segurança e redução de peso, impostas pela indústria automobilística (Barbosa et al., 2004). Os aços HSLA constituem-se em produtos com limite de escoamento entre 350 MPa a 500 MPa, desenvolvidos a partir da adição de microligantes como Nb, Ti, V e outros, que em pequena quantidade têm a finalidade de elevar o nível de resistência. Vários mecanismos são utilizados para se produzir este efeito. Os normalmente utilizados são o endurecimento por solução sólida, por precipitação, por refino de grãos e por transformação de fases (Barbosa et al., 2004). A obtenção de propriedades mecânicas adequadas aos aços de alta resistência depende tanto da composição química quanto das condições de processamento industrial (Barbosa et al., 2004). A influência da composição química nas propriedades mecânicas, segundo Barbosa et al. (2004) deve ser entendida sob dois aspectos distintos, sendo o primeiro em relação ao efeito dos elementos microligantes (Nb, Ti, V e outros), que envolve mecanismos de endurecimento por precipitação e refinamento de grãos. O outro aspecto é o aumento de resistência por solução sólida, provocado pelo acréscimo nas concentrações de P, Mn e S. Ainda segundo Barbosa et al. (2004), a importância das variáveis operacionais nas propriedades torna-se ainda mais significativa em função da multiplicidade de mecanismos de endurecimento envolvidos (solução sólida, precipitação e refino de grãos). Na laminação a quente os parâmetros mais importantes são a temperatura de acabamento e a temperatura de bobinamento. Já na laminação a frio um parâmetro importante é a taxa de redução a frio, que afeta as propriedades mecânicas por alterar as condições de recristalização destes aços após o recozimento. No recozimento, a fase de encharque do material é a que exerce maior influência nas propriedades mecânicas dos aços de alta resistência microligados. Para os diversos graus de aços HSLA, laminados a frio e revestidos por imersão a quente, os valores de composição química e as garantias de propriedades mecânicas da norma internacional EN são apresentados, repectivamente, nas Tabelas 3.1 e 3.2. Neste trabalho

75 3.5 Aços de alta resistência microligados 54 Tabela 3.1: Valores de composição química [%] para aços HSLA - FONTE: Norma EN Grau C Máx. Si Máx. Mn Máx. P Máx. S Máx. Al Min. Ti Máx. Nb Máx. H260LAD 0,60 H300LAD 1,00 H340LAD 0,11 0,50 0,025 0,025 0,015 0,15 0,09 H380LAD 1,40 H420LAD Tabela 3.2: Garantias de propriedades mecânicas para aços HSLA - FONTE: Norma EN Grau LE [MPa] LR [MPa] ALO [%] Min. H260LAD 260 a a H300LAD 300 a a H340LAD 340 a a H380LAD 380 a a H420LAD 420 a a foram usados dados de processo de todos os graus de aços apresentados nas Tabelas 3.1 e 3.2. Outras características destes aços poderiam ser tratadas, mas isso foge ao escopo do trabalho. Melhores informações podem ser obtidas em Ono et al. (1982), Goodman e R. (1984), Pradhan (1984) e Barbosa et al. (2004). A seção seguinte apresenta as implementações das RNAs e dos sistemas híbridos neurofuzzy e os resultados obtidos na predição das propriedades mecânicas dos aços HSLA, laminados a frio e revestidos por imersão a quente.

76 Capítulo 4 Predição das Propriedades Mecânicas de Aços HSLA 4.1 Introdução Este capítulo apresenta o desenvolvimento realizado no trabalho. São apresentados os problemas e as técnicas empregadas para a seleção e o pré-processamento das variáveisde e as diversas implementações realizadas utilizando os métodos de inteligência computacional, Redes Neurais Artificiais e Sistemas Híbridos Neuro-fuzzy, a fim de se obter o melhor modelo para a predição de propriedades mecânicas de aços HSLA. Também são apresentados e discutidos os respectivos resultados. Para uma melhor comparação do desempenho dos diversos modelos, em todas as abordagens utilizou-se o mesmo conjunto de dados de treinamento e validação 4.2 Seleção e pré-processamento das variáveis de entrada A seleção e o pré-processamento das variáveis são importantes no sentido de dar robustez e elevar o desempenho de modelos baseados em dados de processos industriais. Neste capítulo são discutidas técnicas para a seleção e o pré-processamento das variáveis a serem usadas na modelagem através dos métodos de inteligência computacional. Segundo Bishop (1995), um dos fatores mais importantes para determinação do sucesso de uma aplicação prática de redes neurais artificiais é a forma de pré-processamento aplicada aos

77 4.2 Seleção e pré-processamento das variáveis de entrada 56 dados. Tenner et al. (2001) faz algumas considerações que devem ser levadas em conta para a construção de modelos baseados em dados reais de processos industriais. Dados inconsistentes podem ocorrer devido a vários fatores, tais como: erros na medição dos dados do processo; ruídos presentes nos dados de processo; erros no manuseio dos dados (leitura ou digitação); erros no tratamento dos dados. Para localizar os dados inconsistentes, algumas técnicas podem ser empregadas. As técnicas mais comum são: checagem dos limites dos dados; análise de correlação; técnicas para deteção automática de outliers; avaliação dos resultados do modelo, que podem apontar para dados de entrada inconsistentes. Além da avaliação dos dados inconsistentes, deve-se levar em conta a distribuição dos dados para se evitar que o modelo apresente desempenho pior para determinadas regiões do espaço de entradas onde houve poucos padrões disponíveis para o treinamento Seleção das variáveis de entrada O fluxo de produção de tiras de aço laminadas a frio e galvanizadas envolve uma série de processos até a obtenção do produto final. No caso particular da Usina Intendente Câmara, onde este trabalho foi aplicado, o fluxo de produção completo foi detalhado no capítulo 3. Para a seleção das variáveis importantes para a predição das propriedades mecânicas foram levados em consideração os trabalhos de Myllykoski et al. (1996), Chen e Linkens (1999), Tenner et al. (2001), Yang e Linkens (2001) e Golodnikov et al. (2005). Nestes estudos, é

78 4.2 Seleção e pré-processamento das variáveis de entrada 57 unânime a utilização dos dados de composição química e parâmetros de processo, tais como as temperaturas de laminação a quente e temperaturas dos fornos de recozimento, nos modelos para predição de propriedades mecânicas utilizando técnicas de inteligência computacional. Seguindo a sugestão de Tenner et al. (2001), a seleção das variáveis a serem incluídas no modelo deve levar em conta também a avaliação de especialistas em metalurgia. Como mencionado no capítulo 3, e de acordo com a literatura, foram selecionadas 20 variáveis de entrada de dois grupos distintos: composição química e dados dos processos. A Tabela 4.1 apresenta as variáveis de entrada. Tabela 4.1: Variáveis de entrada. Grupo Variável Unidade Composição química C % Mn % Nb % P % S % Al % N % Ti % Dados de processo Espessura da bobina a quente mm Temperatura de acabamento o C Temperatura de bobinamento o C Espessura da bobina a frio mm Largura da bobina a frio mm Temperatura do forno RTF o C Temperatura do forno SF o C Temperatura do forno SCF o C Temperatura do forno JCF o C Carga de laminação (encruamento) t Alongamento no encruamento % Velocidade mpm As variáveis de saída a serem preditas pelos modelos são as propriedades fundamentais dos aços, também definidas no capítulo 3; Limite de escoamento, Limite de resistência e Alongamento. Como apresentado na seção 3.4.5, os valores destas propriedades são obtidos através do ensaio de tração.

79 4.2 Seleção e pré-processamento das variáveis de entrada Coleta de dados Após a definição das variáveis de entrada e saída a serem usadas para o desenvolvimento do modelo partiu-se para a coleta dos dados. Foram realizadas consultas ao banco de dados de processo de forma a se ter um conjunto de padrões contendo todas as variáveis de entrada e saída num único arquivo Excel. Este arquivo, contendo 4983 padrões, compreendia toda a produção de aços da família HSLA processados na galvanização por imersão a quente da USIMINAS nos anos de 2004 e Análise estatística das variáveis A partir do arquivo básico de dados, foram realizadas análises para identificação e remoção de padrões com variáveis faltantes, checagens de limites dos dados de acordo com a orientação dos especialistas em metalurgia e verificada a distribuição de cada uma das variáveis. A Figura 4.1 apresenta, como exemplo, o gráfico da variável carga de laminação do laminador de encruamento e a Figura 4.2 o histograma para a mesma variável. 500 Dados de Carga 1000 Dados de Carga: Média: STD: [Ton] Amostras No. de Amostras [Ton] Figura 4.1: Carga de laminação. Figura 4.2: Histograma - Carga de laminação Identificação automática de outliers Um outlier pode ser definido como uma amostra que desvia muito em relação às outras levantando a suspeita que ela tenha sido gerada por um outro mecanismo (Hawkins, 1980). A identificação de outliers pode ser aplicada durante o processo de filtragem dos dados em mineração de dados (data mining) para a identificação de dados com problemas e também em

80 4.2 Seleção e pré-processamento das variáveis de entrada 59 outros casos nos quais o outlier é de particular interesse; por exemplo no caso de fraudes em cartões de crédito o outlier representa a fraude (Hawkins et al., 2002). Neste trabalho, a identificação de outliers foi utilizada como uma segunda filtragem dos dados, após a análise apresentada na seção Foram aplicadas duas técnicas para identificação de outliers em conjuntos de dados multivariáveis, a primeira baseada no cálculo da distância de Mahalanobis e a segunda baseada na implementação de uma rede neural replicadora das entradas, Replicator Neural Network (RNN) Identificação de outliers pela distância de Mahalanobis A distância de Mahalanobis é um método estatístico baseado no cálculo de distância, criado por P. C. Mahalanobis, no qual é calculada a distância de uma amostra em relação ao centróide de todas as amostras (Jarrel, 1992). Considere-se um conjunto de dados multivariável p-dimensional com n amostras, no qual a i ésima amostra seja Xi T =(x i1,x i2,...,x ip ), X seja o vetor de médias do conjunto e V seja a matriz de covariância. Uma maneira clássica de se detetar outliers deste conjunto é calculandose a distância de Mahalanobis de cada amostra, como descrito em Jarrel (1992), através da equação: D 2 (X i )=(X i X) T V 1 (X i X) (4.1) O uso da distância de Mahalanobis normalmente oferece melhores resultados do que o método comumente utilizado da distância Euclidiana. Isto ocorre porque a distância de Mahalanobis avalia não somente a média, como a distância Euclidiana, mas também a variância e a covariância entre as variáveis envolvidas (Rennó, 1995). A Figura 4.3 apresenta os outliers identificados em todo o conjunto de dados e destacados na variável Temperatura do forno SF Identificação de outliers utilizando RNN Uma RNN (Replicator Neural Network) é um caso específico de RNA do tpo MLP (Multilayer Perceptron) com três camadas intermediárias e cujo objetivo é a reprodução dos padrões de entrada na camada de saída. O número de neurônios nas três camadas intermediárias é selecionado experimentalmente com a finalidade de minimizar o erro para os padrões de treinamento (Hawkins et al., 2002).

81 4.2 Seleção e pré-processamento das variáveis de entrada Outliers de temperatura do forno SF T [oc] Possíveis Outliers amostras Figura 4.3: Outliers do conjunto multivariável identificados pelo método da distância de Mahalanobis apresentados sobre a variável Temperatura do forno SF. A Figura 4.4 apresenta uma RNN onde podem ser vistas as 5 camadas, sendo 3 camadas intermediárias, e o vetor de entradas que é também o vetor de saídas desejadas. Figura 4.4: RNN - Rede Neural Replicadora, mostrando as 5 camadas e o vetor de entradas V que é também o vetor de saídas desejadas. Como as variáveis de entrada numa RNN são também as variáveis de saída, a RNN forma um codificador, criando um modelo comprimido dos dados durante o treinamento. A identifica-

82 4.2 Seleção e pré-processamento das variáveis de entrada 61 ção de outliers é baseada no erro de reconstrução de cada um dos padrões de entrada (Hawkins et al., 2002). Padrões com alto erro de reconstrução são considerados outliers. A Figura 4.5 apresenta os outliers identificados em todo o conjunto de dados e destacados na variável Temperatura do forno SF. 800 Outliers de temperatura do forno SF T [oc] Possíveis Outliers amostras Figura 4.5: Outliers do conjunto multivariável identificados pela RNN apresentados sobre a variável Temperatura do forno SF Conclusão da seção A aplicação de técnicas de indentificação de outliers em conjuntos de dados multivariáveis é uma etapa importante no pré-processamento dos dados de entrada para o desenvolvimento de modelos baseados em dados reais. Como mostrado nas Figuras 4.3 e 4.5, para a variável Temperatura do forno SF, ambas as técnicas aplicadas no trabalho identificaram como sendo possíveis outliers os padrões destacados nas figuras, os quais foram posteriormente analisados, pelos especialistas em metalurgia, e chegou-se a conclusão que vários destes possíveis outliers sobre a variável Temperatura do forno SF eram realmente outliers. Alguns dos possíveis outliers mostrados nas Figuras 4.3 e 4.5 não se configuraram outliers verdadeiros durante a análise. Analisando os outliers identificados nas Figuras 4.3 e 4.5, verifica-se a importância da apli-

83 4.2 Seleção e pré-processamento das variáveis de entrada 62 cação de mais de uma técnica de identificação de outliers e também a necessidade de avaliação dos possíveis outliers, uma vez que as técnicas podem apresentar falhas e identificar falsos outliers Normalização das variáveis Após as etapas de pré-processamento dos dados das seções e 4.2.4, obteve-se um conunto de 3599 padrões válidos para o desenvolvimento dos modelos. Como última etapa do pré-processamento dos dados, iniciou-se a normalização das entradas. A normalização tem o objetivo de se evitar problemas numéricos durante o treinamento, devido à ordem de grandeza de cada uma das variáveis de entrada, e também melhorar o desempenho do algoritmo de treinamento back-propagation (Haykin, 1999). Foram realizados os dois tipos de normalização mais comuns na literatura, a normalização de cada uma das variávis de entradas na faixa de ±1 e também a normalização com média 0 e desvio padrão Redução da dimensionalidade utilizando PCA A análise de componentes principais é um método estatístico multivariado linear, que permite a redução da dimensionalidade de um conjunto de variáveis (Johnson e Wichern, 1988), fornecendo uma visão estatisticamente privilegiada do conjunto de dados. O método de PCA fornece as ferramentas adequadas para identificar as variáveis mais importantes no espaço das componentes principais (Moita Neto, 2004). A método de PCA consiste em reescrever as variáveis originais em novas variáveis denominadas componentes principais, através de uma transformação de coordenadas. Cada componente principal é uma combinação linear de todas as variáveis originais (Moita Neto, 2004). Uma vantagem dos compontentes principais sobre as variáveis originais é que as variáveis originais podem guardar correlações entre si e os componentes principais são ortogonais entre si, de forma que cada componente principal traz uma informação estatística diferente dos outros. Para o treinamento das RNAs, a descorrelação das variáveis de entrada no conjunto de estimação possibilita melhoria na convergência, com ganho de simplicidade para o modelo (Haykin, 1999); Neste trabalho foi aplicada a técnica de PCA no conjunto de variáveis de entrada, con-

84 4.2 Seleção e pré-processamento das variáveis de entrada 63 siderando um conjunto de componentes principais representando 99% da variância do conjunto das variáveis originais. Com essa restrição de 99% da variância, o conjunto de variáveis de entrada foi reduzido de 20 variáveis para 14. Esse novo conjunto de variáveis de entrada gerado foi usado no treinamento da RNA e os resultados dessa implementação são apresentados na seção Agrupamento de dados Agrupamento de dados (data clustering) é uma técnica largamente empregada para organização e segregação de dados, mas também útil para a compressão de dados e a construção de modelos (Jang et al., 1997). O agrupamento de dados consiste no particionamento de um conjunto de dados em vários grupos, de forma que a similaridade interna em um grupo seja menor que entre grupos. A medida da similaridade normalmente envolve métricas baseadas no cálculo de distância. Existem várias técnicas para a criação de agrupamentos, porém, segundo Jang et al. (1997), algumas técnicas são mais frequentemente utilizadas na modelagem através de sistemas nebulosos (fuzzy). São elas: K-means ou C-means; fuzzy C-means clustering; mountain clustering; subtractive clustering. Cada uma das técnicas, incluindo seu algoritmo, é detalhada em Jang et al. (1997). No trabalho foi aplicada a técnica de subtractive clustering para o agrupamento das variáveis para a criação dos sistemas híbridos neuro-fuzzy. Essa técnica encontra-se embutida na função genfis2 do MATLAB e é aplicada sobre o conjunto de entradas e saídas, para determinação dos centros dos agrupamentos, que serão em seguida usados na determinação do número de regras e de funções de pertinência das entradas do sistema neuro-fuzzy.

85 4.3 Predição utilizando regressão linear múltipla Predição utilizando regressão linear múltipla A análise de regressão é uma técnica para modelagem do relacionamento entre duas ou mais variáveis. A análise de regressão pode ser vista como o estudo de correlação entre as variáveis (Jones et al., 2005). Essa primeira abordagem foi realizada apesar da literatura consultada apontar para a existência de relações não lineares entre os parâmetros envolvidos na predição das propriedades mecânicas de aços HSLA(Jones et al., 2005). Os histogramas dos erros percentuais e os erros percentuais médios obtidos para os padrões de validação, para cada uma das propriedades mecânicas, através da regressão linear múltipla são apresentados na Figura 4.6. O erro percentual foi calculado de acordo com a Equação 4.2 e o erro percentual médio como em Jang (1993) e apresentado na Equação 4.3 EP = T (i) O(i) T (i) 100%, (4.2) EPM = 1 P P i=1 T (i) O(i) T (i) 100%, (4.3) sendo P o número de padrões de validação, T (i) e O(i) a i ésima saída desejada e calculada respectivamente. A Figura 4.7 apresenta os resultados da análise de correlação para a predição das propriedades mecânicas através da regressão linear múltipla. De acordo com o trabalho de Jones et al. (2005), para os aços HSLA, uma comparação do desvio padrão do erro de predição (predito x real) para as propriedades mecânicas utilizando regressão linear múltipla, regressão não linear múltipla (quadrática), regressão não linear múltipla (cúbica) e RNAs treinadas com algoritmo Levemberg-Marquardt e parada antecipada, demonstra que todas as técnicas de análise de regressão utilizadas apresentam desempenhos similares, enquanto que o modelo neural apresenta o melhor desempenho. A Tabela 4.2 apresenta o desempenho dos modelos citados.

86 4.3 Predição utilizando regressão linear múltipla LE: EPM = 3.58 % 2000 LR: EPM = 2.05 % No. Amostras No. Amostras Erro percentual LE: EPM = 5.81 % Erro percentual No. Amostras Erro percentual Figura 4.6: Histogramas dos Erros percentuais e Erros percentuais médios (EPM) usando regressão linear múltipla. 600 LE [MPa]: R = LR [MPa]: R = 0.95 Regressão linear Regressão linear Real ALO[%]: R = Real Regressão linear Real Figura 4.7: Análise de correlação (R:Coeficiente de correlação) dos resultados de predição usando regressão linear múltipla.

87 4.4 Predição através de RNAs 66 Tabela 4.2: Médias e Desvios padrão (SD) dos erros de predição de propriedades mecânicas para aços HSLA, usando regressão linear, regressão não linear quadrática (Q) e cúbica (C) - FONTE: (Jones et al., 2005). Modelo LE LR ALO Média SD Média SD Média SD Reg. Linear 0,0 28,65 0,0 23,43 0,0 3,22 Reg. Não Linear (Q) 0,0 26,80 0,0 22,30 0,0 3,15 Reg. Não Linear (C) 0,0 24,75 0,0 20,76 0,0 3,04 RNA 0, ,171 0, ,248 0, , Predição através de RNAs A predição de propriedades mecânicas de materiais através de modelos desenvolvidos a partir de RNAs, objetivo deste trabalho, tem sido objeto de pesquisa há alguns anos, como pode ser visto nos trabalhos realizados por Myllykoski et al. (1996), Liu et al. (1996), Warde e Knowles (1999), Tenner et al. (2001), Yang e Linkens (2001) e Jones et al. (2005), que apresentam resultados satisfatórios na aplicação desta técnica. Assim como nos trabalhos citados, foram também desenvolvidas neste trabalho RNAs do tipo MLP (Multilayer Perceptron) Arquitetura de RNAs Definição do número de camadas intermediárias As RNAs de uma só camada conseguem tratar apenas problemas lineramente separáveis (Braga et al., 2000). O tratamento de problemas não linearmente separáveis passa necessariamente pela aplicação de RNAs com uma ou mais camadas intermediárias. Segundo Cybenko (1988) uma RNA com uma camada intermediária, sem restrição no número de neurônios nesta camada, é capaz de aproximar qualquer função contínua. Uma RNA com duas camadas intermediárias permite a aproximação de qualquer função (Cybenko, 1988). Neste trabalho, em testes preliminares, foram realizadas implementações de RNAs com uma e duas camadas intermediárias, sendo que as RNAs com apenas uma camada intermediária apresentaram melhores resultados. Para este propósito, as RNAs foram treinadas com o algoritmo de treinamento back-propagation usando a minimização do erro médio quadrático (MSE) pelo método de otimização do gradiente conjugado descrito em Edgar e Himmelblau (1988) e Jang et al. (1997), usando a função trainscg detalhada em Demut e Beale (1997). A função

88 4.4 Predição através de RNAs 67 trainscg foi usada para treinamento das RNAs apenas para definição do número de camadas intermediárias. Em todas as outras implementações foi usado o algoritmo de Levemberg Marquardt. Os resultados de algumas situações para as duas implementações podem ser vistos na Tabela 4.3. No caso das RNAs com apenas uma camada intermediária obteve-se o melhor resultado, em termos de validação, com 21 neurônios na camada intermediária. Por isso não são apresentados na tabela os MSE para as configurações com mais de 21 neurônios. No caso das RNAs com duas camadas intermediárias, por questões de simplificação na implementação, as mesmas foram treinadas com números iguais de neurônios em ambas as camadas intermediárias. Neste caso, o melhor resultado de validação foi obtido com 35 neurônios em ambas as camadas. Em função dos resultados apresentados na Tabela 4.3 optou-se, neste trabalho, pelo desenvolvimento de RNAs com apenas uma camada intermediária Definição do número de neurônios na camada intermediária A partir da definição de se trabalhar com RNAs com apenas uma camada intermediária, o próximo problema que se apresenta é a definição do número de neurônios da camada intermediária. Segundo Braga et al. (2000) o número de neurônios da camada intermediária é em geral definido empiricamente e depende de vários fatores, tais como: número de exemplos de treinamento; quantidade de ruído nos exemplos; complexidade da função a ser aprendida; distribuição estatística dos dados de treinamento. Na tentativa de se buscar a melhor arquitetura para as RNAs desenvolvidas, em relação ao número de neurônios da camada intermediária, foi implementada uma estratégia de treinamento baseda na implementação de vários modelos com diferentes números de neurônios, variandose o número de neurônios da camada intermediária de n/2 até 2n +1, sendo n o número de entradas da RNA. O valor limite de 2n+1neurônios foi definido com base no teorema de Kolmogorov citado em Gorni (1997), Mazzatorta et al. (2003) e Jones et al. (2005).

89 4.4 Predição através de RNAs 68 Tabela 4.3: Erro médio quadrático (MSE) dos treinamentos de RNAs com uma e duas camadas intermediárias. No. Camadas No. Neurônios MSE: Padrões intermediárias escondidos de validação , , , , , , , , , , , Em seguida, é apresentado o detalhamento do algoritmo utilizado para obtenção da arquitetura da melhor RNA, em termos de erro de validação, variando-se o número de neurônios da camada intermediária de n/2 até 2n +1. Como função de ativação dos neurônios, tanto da camada intermediária quanto da camada de saída, foi usada a função sigmoidal tangente hiperbólica.

90 4.4 Predição através de RNAs 69 Algoritmo 1 Estratégia de treinamento para se obter a melhor RNA 1: Carrega conjunto de padrões de treinamento e validação; 2: Inicializa número mínimo (nnmin) e máximo (nnmax) de neurônios da camada intermediária; 3: Inicializa número máximo de inicializações (nmaxreinic) de cada configuração da RNA; 4: Inicializa erro de validação (menormse); {Inicializa erro de validação com valor elevado} 5: for (nn = nnmin : nnmax) do 6: for (nreinic =1:nmaxreinic) do 7: Incializa RNA com nn; {Inicializa RNA com nn neurônios na camada intermediária} 8: Treina RNA com early stopping; {Treina RNA com nn neurônios na camada intermediária} 9: if (msevalatual < menormse) then 10: menormse = mseatual; {Atualiza menor erro de validação obtido} 11: Salva a RNA; {Salva pesos e bias da RNA} 12: end if 13: end for 14: end for Treinamentos realizados Foi implementado basicamente o algoritmo de treinamento back-propagation usando a minimização do MSE baseada no método de Levemberg Marquardt, por sua característica de rápida convergência e robustez (Norgaard, 1997). Foram implementadas também várias estratégias para elevar a capacidade de generalização das RNAs durante o treinamento, de forma a se obterem modelos com elevada capacidade de generalização, ou seja, redes que respondam de forma adequada a padrões desconhecidos. Além de ser realizada a separação do conjunto de dados em 2 subconjuntos, um para treinamento com 3 dos dados e o segundo para validação com 1 dos dados, foram utilizadas as estratégias 4 4 apresentadas no capítulo 2 : early stopping - parada antecipada do treinamento pelo erro do conjunto de validação; regularização bayesiana - controla o crescimento da complexidade do modelo; pruning - reduz a complexidade da RNA alterando a sua estrutura; ensemble model - uso de um conjunto de RNAs. Para efeito de comparação da influência da normalização dos dados no desempenho dos

91 4.4 Predição através de RNAs 70 modelos foram treinadas RNAs cujos padrões de treinamento e validação foram normalizados com duas abordagens diferentes. A primeira normalizando os dados entre 1 e +1 e a segunda normalizando com média zero e desvio padrão 1. Como mencionado na seção foi usada no pré-processamento dos dados de entrada a técnica de PCA para redução da dimensionalidade das entradas sem perda da informação presente nos dados. Uma RNA foi treinada utilizando este conjunto de dados de entrada reduzido. Os resultados de cada implementação são apresentados a seguir Algoritmo Levemberg Marquardt com parada antecipada pelo erro de validação Os histogramas dos erros percentuais e os erros percentuais médios obtidos para os padrões de validação, para cada uma das propriedades mecânicas, através da RNA treinada utilizando o algoritmo de otimização proposto por Levemberg Marquardt, com parada antecipada (função trainlm do MATLAB) e normalização dos padrões entre 1 e +1, são apresentados na Figura 4.8. A Figura 4.9 apresenta os resultados da análise de correlação. 300 LE: EPM = 2.75 % 300 LR: EPM = 1.67 % No. Amostras No. Amostras Erro percentual LE: EPM = 5.19 % Erro percentual No. Amostras Erro percentual Figura 4.8: Histogramas dos Erros percentuais e Erros percentuais médios (EPM) da RNA usando LM com parada antecipada pelo erro de validação e normalização entre -1 e +1. Na Figura 4.10 são apresentados os histogramas dos erros percentuais e os erros percentuais médios obtidos para os padrões de validação com o algoritmo de otimização proposto por

92 4.4 Predição através de RNAs LE [MPa]: R = LR [MPa]: R = RNA 400 RNA Real ALO[%]: R = Real 40 RNA Real Figura 4.9: Análise de correlação (R:Coeficiente de correlação) dos resultados de predição da RNA usando LM com parada antecipada pelo erro de validação e normalização entre -1 e +1. Levemberg Marquardt, com parada antecipada (função trainlm do MATLAB) e normalização dos padrões com média 0 e desvio padrão 1. A Figura 4.11 apresenta os resultados da análise de correlação Algoritmo Levemberg Marquardt com Regularização bayesiana Os histogramas dos erros percentuais e os erros percentuais médios obtidos para os padrões de validação, para cada uma das propriedades mecânicas, através da RNA treinada utilizando o algoritmo de otimização proposto por Levemberg Marquardt, com regularização bayesiana (função trainbr do MATLAB) e normalização dos padrões entre 1 e +1, são apresentados na Figura A Figura 4.13 apresenta os resultados da análise de correlação. Na Figura 4.14 são apresentados os histogramas dos erros percentuais e os erros percentuais médios obtidos para os padrões de validação com o algoritmo de otimização proposto por Levemberg Marquardt, com regularização bayesiana (função trainbr do MATLAB) e normalização dos padrões com média 0 e desvio padrão 1. A Figura 4.15 apresenta os resultados da análise de correlação.

93 4.4 Predição através de RNAs LE: EPM = 2.85 % 300 LR: EPM = 1.69 % No. Amostras No. Amostras Erro percentual LE: EPM = 5.21 % Erro percentual No. Amostras Erro percentual Figura 4.10: Histogramas dos Erros percentuais e Erros percentuais médios (EPM) da RNA usando LM com parada antecipada pelo erro de validação e normalização com média 0 e desvio padrão LE [MPa]: R = LR [MPa]: R = RNA 400 RNA Real ALO[%]: R = Real 40 RNA Real Figura 4.11: Análise de correlação (R:Coeficiente de correlação) dos resultados de predição da RNA usando LM com parada antecipada pelo erro de validação e normalização com média 0 e desvio padrão 1.

94 4.4 Predição através de RNAs LE: EPM = 2.79 % 300 LR: EPM = 1.62 % No. Amostras No. Amostras Erro percentual LE: EPM = 5.24 % Erro percentual No. Amostras Erro percentual Figura 4.12: Histogramas dos Erros percentuais e Erros percentuais médios (EPM) da RNA usando LM com regularização bayesiana e normalização entre -1 e LE [MPa]: R = LR [MPa]: R = RNA 400 RNA Real ALO[%]: R = Real 40 RNA Real Figura 4.13: Análise de correlação (R:Coeficiente de correlação) dos resultados de predição da RNA usando LM com regularização bayesiana e normalização entre -1 e +1.

95 4.4 Predição através de RNAs LE: EPM = 2.85 % 400 LR: EPM = 1.64 % No. Amostras No. Amostras Erro percentual LE: EPM = 5.25 % Erro percentual No. Amostras Erro percentual Figura 4.14: Histogramas dos Erros percentuais e Erros percentuais médios (EPM) da RNA usando LM com regularização bayesiana e normalização com média 0 e desvio padrão LE [MPa]: R = LR [MPa]: R = RNA 400 RNA Real ALO[%]: R = Real 40 RNA Real Figura 4.15: Análise de correlação (R:Coeficiente de correlação) dos resultados de predição da RNA usando LM com regularização bayesiana e normalização com média 0 e desvio padrão 1.

96 4.4 Predição através de RNAs Algoritmo Levemberg Marquardt com Regularização bayesiana e redução por PCA No caso da aplicação do método para redução da dimensionalidade das entradas, como descrito no capítulo 2, foi selecionado um conjunto de componentes principais que explicasse 99% da variância. Dessa forma foram selecionados 14 componentes, gerando consequentemente 14 variáveis de entrada para o treinamento da RNA. Os histogramas dos erros percentuais e os erros percentuais médios obtidos para os padrões de validação, para cada uma das propriedades mecânicas, através da RNA treinada utilizando o algoritmo de otimização proposto por Levemberg Marquardt, com regularização bayesiana (função trainbr do MATLAB), redução da dimensionalidade das entradas pela técnica de PCA e normalização dos padrões com média 0 e desvio padrão 1, são apresentados na Figura A Figura 4.17 apresenta os resultados da análise de correlação. 300 LE: EPM = 3.07 % 400 LR: EPM = 1.77 % No. Amostras No. Amostras Erro percentual LE: EPM = 5.22 % Erro percentual No. Amostras Erro percentual Figura 4.16: Histogramas dos Erros percentuais e Erros percentuais médios (EPM) da RNA usando LM com regularização bayesiana, redução por PCA e normalização com média zero e desvio padrão Técnica de pruning Para a aplicação da técnica de pruning (Hassibi et al., 1993) foi utilizado o toolbox NNSYD desenvolvido por Norgaard (1997). Neste caso, foram treinadas RNAs com 20 a 45 neurônios na camada intermediária, uma vez que o modelo deveria ser primeiramente sobreparametrizado

97 4.4 Predição através de RNAs LE [MPa]: R = LR [MPa]: R = RNA 400 RNA Real ALO[%]: R = Real 40 RNA Real Figura 4.17: Análise de correlação (R:Coeficiente de correlação) dos resultados de predição da RNA usando LM com regularização bayesiana, redução por PCA e normalização com média 0 e desvio padrão 1. e durante o treinamento a estrutura teria a complexidade reduzida. O algoritmo utilizado para a implementação da técnica de pruning foi o algoritmo OBS - Optimal brain surgeon (Hassibi et al., 1993), detalhado no capítulo 2. Os histogramas dos erros percentuais e os erros percentuais médios obtidos para os padrões de validação, para cada uma das propriedades mecânicas, através da RNA treinada utilizando a técnica de pruning com a normalização dos padrões entre -1 e +1 são apresentados na Figura A Figura 4.19 apresenta os resultados da análise de correlação Técnica de Ensemble model Neste projeto, como descrito no capítulo 2, foi criado um ensemble com o mesmo número de RNAs do tipo MLP usado por Yang e Linkens (2001). Foram treinadas várias RNAs com diferentes arquiteturas, usando diferentes algoritmos de treinamento, variando-se também o método de normalização dos dados. Após o treinamento foram selecionadas as dez melhores RNAs pelo critério do erro médio quadrático para os padrões de validação. Para o cálculo da saída do ensemble foi adotada a média simples das saídas das RNAs componentes.

98 4.4 Predição através de RNAs LE: EPM = 2.89 % 300 LR: EPM = 1.68 % No. Amostras No. Amostras Erro percentual LE: EPM = 5.37 % Erro percentual No. Amostras Erro percentual Figura 4.18: Histogramas dos Erros percentuais e Erros percentuais médios (EPM) da RNA usando técnica de pruning e normalização entre -1 e LE [MPa]: R = LR [MPa]: R = RNA 400 RNA Real ALO[%]: R = Real 40 RNA Real Figura 4.19: Análise de correlação (R:Coeficiente de correlação) dos resultados de predição da RNA usando técnica de pruning e normalização entre -1 e +1.

99 4.4 Predição através de RNAs 78 Verifica-se, pelos resultados obtidos, que para o Limite de escoamento e o Limite de resistência, apesar do ensemble apresentar resultados superiores, não houve grande diferença em relação aos resultados das melhores RNAs individuais, mas para o Alongamento houve melhora significativa no erro de validação. Os histogramas dos erros percentuais e os erros percentuais médios obtidos para os padrões de validação, para cada uma das propriedades mecânicas, através do Ensemble model são apresentados na Figura A Figura 4.21 apresenta os resultados da análise de correlação. 300 LE: EPM = 2.63 % 400 LR: EPM = 1.51 % No. Amostras No. Amostras Erro percentual LE: EPM = 4.77 % Erro percentual No. Amostras Erro percentual Figura 4.20: Histogramas dos Erros percentuais e Erros percentuais médios (EPM) usando Ensemble model Resumo dos resultados das RNAs A Tabela 4.4 apresenta um resumo dos resultados obtidos nas implementações das diversas RNAs citadas na seção Verifica-se que os melhores resultados foram obtidos com a aplicação da técnica de Ensemble modelling e que no caso desta abordagem o tipo de normalização empregado e o número de neurônios da camada intermediária ficam sem significado, uma vez que se usa um conjunto das melhores RNAs obtidas, independentemente do algoritmo, das técnicas usadas para maximização da capacidade de generalização e da arquitetura final. Com relação à normalização dos dados, verifica-se pela Tabela 4.4, comparando as linhas 2 e 3 e em seguida as linhas 4 e 5, que as duas abordagens implementadas (±1 e média 0

100 4.4 Predição através de RNAs LE [MPa]: R = LR [MPa]: R = 0.97 "Ensemble" RNA "Ensemble" RNA Real ALO[%]: R = Real "Ensemble" RNA Real Figura 4.21: Análise de correlação (R:Coeficiente de correlação) dos resultados de predição usando Ensemble model. com desvio padrão 1) apresentaram resultados muito semelhantes, com ligeira vantagem para a normalização dos dados na faixa de ±1. Tabela 4.4: Resumo dos resultados de Erro médio quadrático (MSE) das RNAs na predição das propriedades mecânicas. Algoritmo Normalização Neurônios RNA:MSE LE:MSE LR:MSE ALO:MSE LM-Parada val. +1 e LM-Parada val. média 0 std LM-Regulariz. +1 e LM-Regulariz. média 0 std LM-PCA e Reg. média 0 std OBS-Pruning +1 e Ensemble O treinamento foi iniciado com 41 neurônios. A Tabela 4.5 apresenta os resultados obtidos através da análise de correlação (R é o coe-

101 4.4 Predição através de RNAs 80 ficiente de correlação) entre os valores reais das propriedades mecânicas e os calculados pelas diversas implementações. Tabela 4.5: Resumo dos resultados da análise de correlação (R:Coeficiente de correlação) das RNAs para predição de propriedades mecânicas. Algoritmo Normalização Neurônios R:LE R:LR R:ALO LM-Parada val. +1 e ,94 0,97 0,81 LM-Parada val. média 0 std ,93 0,97 0,81 LM-Regulariz. +1 e ,94 0,97 0,81 LM-Regulariz. média 0 std ,93 0,97 0,81 LM-PCA e Reg. média 0 std ,93 0,96 0,81 OBS-Pruning +1 e ,93 0,97 0,80 Ensemble - - 0,94 0,97 0,84 2 O treinamento foi iniciado com 41 neurônios. Observa-se na Tabela 4.5 que, de maneira geral, as RNAs apresentaram melhor desempenho na predição do Limite de Resistência (LR) quando comparado com o desempenho na predição do Limite de Escoamento (LE). Estes resultados são compatíveis com os resultados obtidos por Yang e Linkens (2001), que explicam o desempenho inferior na modelagem do LE quando comparado com o LR em função da dificuldade de medição precisa desta propriedade durante o ensaio de tração. Essa tendência é verificada na maioria dos modelos derivados de dados reais. Resultados decrescentes de desempenho das RNAs na predição do LR, seguido pelo LE e pelo ALO também foram obtidos por Jones et al. (2005) Análise de sensibilidade Quando um modelo linear é desenvolvido obtêm-se diretamente quais entradas o modelo considera como mais importantes, bastando uma simples inspeção nos coeficientes associados a cada uma das entradas individualmente. Num modelo neural por sua vez, a interpretação dos pesos da RNA (os quais poderiam ser vistos como os parâmetros de um modelo linear) torna a análise da sensibilidade do modelo bem mais complexa. Um método empírico para determinação da sensibilidade das saídas da RNA em relação à cada entrada é apresentado em Tenner et al. (2001). Este método usa o conjunto de dados de

102 4.5 Predição através de sistemas híbridos neuro-fuzzy 81 treinamento para determinar o efeito na saída da RNA à variação de cada variável de entrada de um pequeno valor, por exemplo 1% ou +1% do range da variável, em todos os padrões. Segundo Tenner et al. (2001), apesar de o conjunto de dados de treinamento ser mais usado na análise de sensibilidade, podem ser usados o conjunto de validação ou de teste e até mesmo uma combinação dos conjuntos de treinamento, validação e teste. Neste trabalho foi implementado o método de análise de sensibilidade descrito por Tenner et al. (2001) usando todo o conjunto de padrões. O resultado da variação média de cada variável de saída em relação à variação de cada variável de entrada em 1% é apresentado na Figura Variação média de LE 0.4 Variação média de LR [%] 0.1 [%] Entradas Variação média de ALO Entradas 0.3 [%] Entradas Figura 4.22: Sensibilidade relativa das saídas da RNA às entradas. Para melhor observação do efeito de cada variável de entrada nas saídas da RNA os valores de sensibilidade relativa de cada variável estão apresentados em valores absolutos. 4.5 Predição através de sistemas híbridos neuro-fuzzy As RNAs desenvolvidas neste trabalho e seus respectivos resultados foram apresentados na seção 4.4. Similarmente, nesta seção, serão apresentados os sistemas híbridos neuro-fuzzy desenvolvidos, bem como os resultados obtidos.

103 4.5 Predição através de sistemas híbridos neuro-fuzzy 82 A aplicação de sistemas nebulosos (fuzzy) para a predição de propriedades mecânicas de aços HSLA tem sido objeto de pesquisas, como demonstra o trabalho recente de Datta e Banerjee (2005). Já os trabalhos de Chen e Linkens (1999), Femminela et al. (1999) e Abbod et al. (2003) apresentam a aplicação de sistemas híbridos neuro-fuzzy, combinando as técnicas de sistemas nebulosos com redes neurais artificiais, na pesquisa de propriedades mecânicas de materiais Sistemas Neuro-fuzzy desenvolvidos Os sistemas híbridos neuro-fuzzy desenvolvidos neste trabalho foram implementados utilizando o Toolbox fuzzy do MATLAB. Neste Toolbox há basicamente duas formas de se gerar um sistema híbrido neuro-fuzzy para ser treinado com a função anfis. São elas: usando a função genfis1 - gera um sistema híbrido neuro-fuzzy usando particionamento do tipo grid nos dados. O sistema gerado é do tipo Sugeno; usando a função genfis2 - gera um sistema híbrido neuro-fuzzy usando subtractive clustering nos dados. O sistema gerado também é do tipo Sugeno. Um dos inconvenientes do uso da função genfis2 é a necessidade da definição do raio de influência de cada cluster. Neste trabalho, foi usado o método de tentativa e erro para se encontrar o melhor raio na geração dos sistemas híbridos neuro-fuzzy. Como no problema de predição das propriedades mecânicas tem-se um conjunto inicial de 20 variáveis de entrada, optou-se por utilizar a função genfis2 para criação do sistema híbrido neuro-fuzzy, a fim de ser realizado o agrupamento dos dados de entrada e saída. O agrupamento dos dados reduz o número de regras do sistema. Apesar de a função genfis2 gerar sistemas neuro-fuzzy com mais de uma saída, a função de treinamento anfis, também do Toolbox fuzzy do MATLAB, somente realiza o treinamento para sistemas neuro-fuzzy com apenas uma saída. Dessa forma, para a implementação dos sistemas, foram gerados 3 sistemas neuro-fuzzy cada um com apenas 1 saída. Durante a geração e o treinamento dos sistemas híbridos neuro-fuzzy foram testadas 4 abordagens diferentes: foram gerados sistemas híbridos neuro-fuzzy com todas as 20 variáveis de entrada;

104 4.5 Predição através de sistemas híbridos neuro-fuzzy 83 foram gerados sistemas híbridos neuro-fuzzy aplicando-se o método backward selection para seleção das variáveis de entrada; foram gerados sistemas híbridos neuro-fuzzy aplicando-se o método de forward selection para seleção das variáveis de entrada; foram gerados sistemas híbridos neuro-fuzzy aplicando-se uma combinação das variáveis que apresentaram maior sensibilidade na implementação das RNAs e em seguida aplicado o método de forward selection para seleção das demais variáveis de entrada Sistemas Neuro-fuzzy usando todas as entradas Os histogramas dos erros percentuais e os erros percentuais médios obtidos para os padrões de validação, para cada uma das propriedades mecânicas, através dos sistemas neuro-fuzzy gerados a partir de todas as 20 variáveis de entrada são apresentados na Figura A Figura 4.24 apresenta os resultados da análise de correlação. 300 LE: EPM = 3.06 % 400 LR: EPM = 1.64 % No. Amostras No. Amostras Erro percentual LE: EPM = 5.27 % Erro percentual No. Amostras Erro percentual Figura 4.23: Histogramas dos Erros percentuais e Erros percentuais médios (EPM) dos sistemas neurofuzzy usando todas as entradas Sistemas Neuro-fuzzy usando o método backward selection Os histogramas dos erros percentuais e os erros percentuais médios obtidos para os padrões de validação, para cada uma das propriedades mecânicas, através dos sistemas neuro-fuzzy com

105 4.5 Predição através de sistemas híbridos neuro-fuzzy LE [MPa]: R = LR [MPa]: R = NF 400 NF Real ALO [%]: R = Real 40 NF Real Figura 4.24: Análise de correlação (R:Coeficiente de correlação) dos resultados de predição dos sistemas neuro-fuzzy usando todas as entradas. um conjunto de variáveis de entrada gerado a partir da aplicação do método backward selection são apresentados na Figura A Figura 4.26 apresenta os resultados da análise de correlação. A Tabela 4.6 apresenta o número de entradas de cada sistema neuro-fuzzy cujo conjunto de variáveis de entrada foi gerado pelo método backward selection. Tabela 4.6: Número de entradas de cada sistema neuro-fuzzy gerado pelo método backward selection. Neuro-fuzzy No. Entradas LE 17 LR 18 ALO Sistemas Neuro-fuzzy usando o método forward selection Os histogramas dos erros percentuais e os erros percentuais médios obtidos para os padrões de validação, para cada uma das propriedades mecânicas, através dos sistemas neuro-fuzzy com um conjunto de variáveis de entrada gerado a partir da aplicação do método forward selection

106 4.5 Predição através de sistemas híbridos neuro-fuzzy LE: EPM = 2.97 % 400 LR: EPM = 1.62 % No. Amostras No. Amostras Erro percentual LE: EPM = 5.27 % Erro percentual No. Amostras Erro percentual Figura 4.25: Histogramas dos Erros percentuais e Erros percentuais médios (EPM) dos sistemas neurofuzzy usando backward selection. 600 LE [MPa]: R = LR [MPa]: R = NF 400 NF Real ALO [%]: R = Real 40 NF Real Figura 4.26: Análise de correlação (R:Coeficiente de correlação) dos resultados de predição dos sistemas neuro-fuzzy usando backward selection.

107 4.5 Predição através de sistemas híbridos neuro-fuzzy 86 são apresentados na Figura A Figura 4.28 apresenta os resultados da análise de correlação. 400 LE: EPM = 2.79 % 400 LR: EPM = 1.53 % No. Amostras No. Amostras Erro percentual LE: EPM = 5.30 % Erro percentual No. Amostras Erro percentual Figura 4.27: Histogramas dos Erros percentuais e Erros percentuais médios (EPM) dos sistemas neurofuzzy usando forward selection. A Tabela 4.7 apresenta o número de entradas de cada sistema neuro-fuzzy cujo conjunto de variáveis de entrada foi gerado pelo método forward selection. Tabela 4.7: Número de entradas de cada sistema neuro-fuzzy gerado pelo método forward selection. Neuro-fuzzy No. Entradas LE 11 LR 11 ALO Sistemas Neuro-fuzzy usando o método combinado de análise de sensibilidade e forward selection Os histogramas dos erros percentuais e os erros percentuais médios obtidos para os padrões de validação, para cada uma das propriedades mecânicas, através dos sistemas neuro-fuzzy usando um conjunto de variáveis de entrada gerado a partir da aplicação do método combi-

108 4.5 Predição através de sistemas híbridos neuro-fuzzy LE [MPa]: R = LR [MPa]: R = NF 400 NF Real ALO [%]: R = Real 40 NF Real Figura 4.28: Análise de correlação (R:Coeficiente de correlação) dos resultados de predição dos sistemas neuro-fuzzy usando forward selection. nado de análise de sensibilidade e forward selection são apresentados na Figura A Figura 4.30 apresenta os resultados da análise de correlação. A Tabela 4.8 apresenta o número de entradas de cada sistema neuro-fuzzy cujo conjunto de variáveis de entrada foi gerado pelo método combinado de Análise de sensibilidade e forward selection. Tabela 4.8: Número de entradas de cada sistema neuro-fuzzy gerado pelo método combinado de Análise de sensibilidade e forward selection. Neuro-fuzzy No. Entradas LE 14 LR 14 ALO 12

109 4.5 Predição através de sistemas híbridos neuro-fuzzy LE: EPM = 2.75 % 300 LR: EPM = 1.63 % No. Amostras No. Amostras Erro percentual LE: EPM = 5.26 % Erro percentual No. Amostras Erro percentual Figura 4.29: Histogramas dos Erros percentuais e Erros percentuais médios (EPM) dos sistemas neurofuzzy usando o método combinado de Análise de sensibilidade e forward selection. 600 LE [MPa]: R = LR [MPa]: R = NF 400 NF Real ALO [%]: R = Real 40 NF Real Figura 4.30: Análise de correlação (R:Coeficiente de correlação) dos resultados de predição dos sistemas neuro-fuzzy usando o método combinado de Análise de sensibilidade e forward selection.

110 4.5 Predição através de sistemas híbridos neuro-fuzzy 89 Tabela 4.9: Resumo dos resultados, Erro médio quadrático (MSE) e análise de correlação (R:Coeficiente de correlação), obtidos nas implementações de sistemas neuro-fuzzy para predição de propriedades mecânicas. Neuro-fuzzy Método No. Entradas MSE R LE LE forward LE backward LE combinado LR LR forward LR backward LR combinado ALO ALO forward ALO backward ALO combinado Resumo dos resultados dos sistemas Neuro-fuzzy A Tabela 4.9 apresenta um resumo dos resultados obtidos nas implementações dos diversos sistemas neuro-fuzzy descritos na seção Verifica-se pela tabela que, para o problema em questão, os sistemas neuro-fuzzy gerados através da aplicação do método forward selection apresentaram melhor desempenho na predição do LE e LR, e apenas para a predição do ALO o melhor desempenho foi do sistema gerado quando aplicado o método backward selection. Observa-se em ambos os casos que os sistemas gerados são mais simples que o sistema que utiliza todas as variáveis de entrada. Verifica-se também que o método combinado, usando as variáveis de entrada identificadas como de alta sensibilidade para as saídas e em seguida aplicando o método forward selection apresentou resultados ligeiramente melhores que o método backward selection. A aplicação do método forward selection para seleção das variáveis de entrada mais importantes é geralmente preferido em detrimento do método backward selection. Isto ocorre, segundo Chiu (1996), porque o método forward selection parte de modelos mais simples aumentando a complexidade somente quando necessário.

111 4.5 Predição através de sistemas híbridos neuro-fuzzy 90 Tabela 4.10: Resumo dos melhores resultados, Erro médio quadrático (MSE) e análise de correlação (R:Coeficiente de correlação), obtidos na predição de propriedades mecânicas usando Regressão linear múltipla, RNAs (única e ensemble) e sistemas híbridos neuro-fuzzy. Técnica Método/Algoritmo Propriedade MSE R Reg. Lin. Múltipla - LE 298,55 0,89 RNA LM reg. bayesiana LE 184,43 0,94 RNA Ensemble LE 162,87 0,94 Neuro-fuzzy forward LE 187,07 0,94 Reg. Lin. Múltipla - LR 168,84 0,95 RNA LM reg. bayesiana LR 102,55 0,97 RNA Ensemble LR 89,26 0,97 Neuro-fuzzy forward LR 90,54 0,97 Reg. Lin. Múltipla - ALO 5,34 0,74 RNA LM reg. bayesiana ALO 4,08 0,81 RNA Ensemble ALO 3,49 0,84 Neuro-fuzzy backward ALO 4,14 0, Conclusão A Tabela 4.10 apresenta um resumo dos melhores resultados obtidos na predição das propriedades mecânicas dos aços HSLA, laminados a frio e revestidos, através de regressão linear múltipla, RNAs (única e ensemble) e sistemas híbridos neuro-fuzzy. Verifica-se pela Tabela 4.10 que as técnicas de inteligência computacional, RNAs e sistemas híbridos neuro-fuzzy, apresentam desempenhos muito superiores quando comparados aos obtidos através da regressão linear múltipla. Esse resultado corrobora os resultados obtidos por Jones et al. (2005). Entre as técnicas de IC, observa-se que para as propriedades LE e LR o desempenho das duas técnicas são similares, com ligeira vantagem para as RNAs. No caso do ALO, o desempenho das RNAs é bem superior ao do sistema híbrido neuro-fuzzy, com destaque para o método ensemble modelling. Finalmente, faz-se necessário comentar o desempenho das RNAs usando o método ensemble modelling. Esta abordagem destaca-se pela apresentação dos melhores resultados para as três propriedades mecânicas pesquisadas.

112 Capítulo 5 Ferramenta Off-line para Predição de Propriedades Mecânicas e Parâmetros de Processo 5.1 Introdução Como mencionado no capítulo 1, um dos objetivos deste trabalho é desenvolver em ambiente Windows uma ferramenta de apoio à decisão para: predição de propriedades mecânicas e auxílio no projeto de aços em ambiente industrial e; predição de parâmetros de processo para integração das linhas de produção CAPL e CGL. Essa ferramenta permitiria através de uma interface gráfica: realizar a predição das propriedades mecânicas de aços HSLA dados a composição química e os parâmetros de processo; definir os parâmetros de processo, de forma a permitir que um material inicialmente previsto para ser processado no CAPL, seja processado na CGL. 5.2 Benefícios esperados Como benefícios da utilização da ferramenta de apoio à decisão destacam-se:

113 5.3 RNA para predição de parâmetros de processo desenvolvimento de novas ligas e condições de processo - O principal impacto deste benefício será na agilização de respostas às consultas de produtos não padronizados, bem como no melhor acerto inicial, ou seja, menor índice de ajustes nos projetos metalúrgicos e atendimento ao cliente no prazo estabelecido; 2. otimização dos projetos metalúrgicos existentes - Através da realização de simulações que não envolverão os custos de experiências conduzidas em escala industrial, espera-se obter maior robustez dos projetos, com possíveis ganhos em redução de custos e também diminuição de recusas por propriedades mecânicas, além da possibilidade de redução da variabilidade dentro de cada grau comercializado; 3. suporte para definição de ações de feed forward - A partir do conhecimento da composição química real, a ferramenta será útil para auxiliar na definição de novos parâmetros de processamento subsequentes, visando assegurar menor nível de recusa e redução na variabilidade dos produtos; 4. auxílio ao julgamento e decisão sobre corridas fora de faixa - A partir da predição das propriedades mecânicas a serem alcançadas com a composição química real, o modelo neural fornecerá subsídios ao analista para definir se o material em questão deve ou não seguir o fluxo de produção em função do risco potencial de recusa como produto acabado; 5. aumento da flexibilidade operacional através da integração das linhas de produção CAPL e CGL - Atualmente, os produtos produzidos nestes dois processos da USIMINAS têm a composição química e parâmetros de processo específicos. A integração das duas plantas permitiria o processamento na CGL, de um material inicialmente previsto para o CAPL. 5.3 RNA para predição de parâmetros de processo A RNA para predição de parâmetros de processo para integração do CAPL e CGL teria como dados de entrada, a composição química dos produtos a serem produzidos no CAPL e as propriedades mecânicas desejadas para os mesmos na CGL, e como dados de saída os parâmetros para os processos no fluxo de produção destes produtos, quais sejam: a temperatura de acabamento (TACA) e a temperatura de bobinamento (TBOB) da laminação a quente; as temperaturas dos fornos de encharque (TSF) e aquecimento (TRTF) da CGL; o alongamento visado no encruamento (ALSPM).

114 5.3 RNA para predição de parâmetros de processo 93 A Figura 5.1 apresenta o fluxo de produção completo identificando os processos onde foram coletados dados a serem usados no modelo. Figura 5.1: Fluxo de produção completo com identificação dos processos onde foram coletados dados para o modelo de predição de parâmetros de processo. Entradas: elipses cheias. Saídas: elipses tracejadas. Em função dos resultados obtidos na seção 4.4, optou-se pela utilização do algoritmo de treinamento back-propagation usando a minimização do MSE baseada no método de Levemberg Marquardt com regularização bayesiana e normalização das variáveis entre -1 e +1. Inicialmente foi desenvolvida uma única RNA para a predição das cinco saídas necessárias, mas o resultado não se mostrou satisfatório. Na tentativa de melhorar o desempenho da RNA usou-se a técnica de ensemble modelling com impacto positivo no desempenho da RNA. Finalmente, foi realizado o desenvolvimento de cinco RNAs, uma para cada variável de saída, cujo desempenho se apresentou superior aos obtidos nas duas abordagens anteriores. A Tabela 5.1 apresenta a evolução do desempenho das RNAs para a predição dos parâmetros de processo para integração das linhas de produção CAPL e CGL.

115 5.4 A ferramenta 94 O critério de desempenho apresentado na Tabela 5.1, erro percentual médio (EPM), também foi calculado como em Jang (1993) e apresentado no capítulo 4. Tabela 5.1: Resumo dos resultados do Erro percentual médio (EPM) das RNAs para predição de parâmetros de processo para integração das linhas de produção CAPL e CGL. RNA EPM: TBOB EPM: TACA EPM: TSF EPM: TRTF EPM: ALSPM Única 2,57 0,95 0,73 0,79 5,17 Ensemble 2,13 0,93 0,71 0,77 4,13 Separadas 2,06 0,78 0,50 0,50 3, A ferramenta A ferramenta off-line de apoio à decisão para predição de propriedades mecânicas e auxílio no projeto de aços para ambiente Windows foi implementada em Microsoft Visual Basic 6.0, a partir do modelo neural desenvolvido em MATLAB (R14). A ferramenta consitui-se de 2 partes. Na primeira, está implementada uma RNA para predição das três propriedades mecânicas; LE, LR e ALO; para aços HSLA laminados a frio e revestidos por imersão a quente. A segunda parte consiste de 5 RNAs para a predição de cada um dos 5 parâmetros de processo para a integração das linhas de produção CAPL e CGL. Utilizando-se da interface gráfica disponibilizada, o usuário, para a predição das propriedades mecânicas, entra com os dados do produto, quais sejam; composição química, dados de processo da laminação a quente, dados de processo da laminação a frio e dados de processo da linha de galvanização por imersão a quente; para a obtenção dos valores correspondentes das propriedades mecânicas, limite de escoamento, limite de resistência e alongamento. As Figuras 5.2 e 5.3 apresentam respectivamente as interfaces gráficas da ferramenta de predição de propriedades mecânicas e de predição de parâmetros de processo. Para o cálculo dos parâmetros de processo, o usuário entra com os dados de composição química e das propriedades mecânicas desejadas, para a obtenção das temperaturas de acabamento e bobinamento da laminação a quente, a temperatura dos dois dos fornos da CGL e o alongamento visado no encruamento. A ferramenta off-line de apoio à decisão para predição de propriedades mecânicas e auxílio no projeto de aços encontra-se em utilização desde agosto/2006 na USIMINAS para realização

116 5.4 A ferramenta 95 de testes reais em ambiente industrial. Segundo os especialistas em metalurgia, responsáveis pela avaliação da mesma, em testes preliminares as RNAs têm apresentado resultados bons e coerentes com os fenômenos metalúrgicos. No caso específico das RNAs para predição dos parâmetros de processo para a integração das plantas CAPL e CGL, a Tabela 5.2 apresenta os bons resultados obtidos em dois experimentos de materiais com a composição química do CAPL, porém processados na CGL. Tabela 5.2: Resultados de propriedades mecânicas obtidas em experimentos realizados com parâmetros de processo fornecidos pelas RNAs projetadas para a integração das plantas CAPL e CGL. Experimento Propriedade Valor visado Valor obtido I LE 400 a a 420 I LR 463 a a 467 I ALO a 28 II 1 LE 417 a a 445 II 1 LR 477 a a 514 II 1 ALO a 26 1 No experimento II, uma temperatura de processo fornecida pelas RNAs deveria ser 745 Ce a realizada ficou entre 704 e 722 C, o que impactou negativamente no resultado deste experimento.

117 5.4 A ferramenta 96 Figura 5.2: Interface gráfica da ferramenta de predição de propriedades mecânicas para aços HSLA, laminados a frio e revestidos por imersão a quente.

118 5.4 A ferramenta 97 Figura 5.3: Interface gráfica da ferramenta de predição de parâmetros de processo para integração das linhas de produção CAPL e CGL.

Exibir mais