UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS TECNOLÓGICAS DA TERRA E DO MAR CURSO DE CIÊNCIA DA COMPUTAÇÃO

Transcrição

1 UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS TECNOLÓGICAS DA TERRA E DO MAR CURSO DE CIÊNCIA DA COMPUTAÇÃO REDES NEURAIS ARTIFICIAIS X ANÁLISE MULTIVARIADA NA PREDIÇÃO DE JAR TEST Área de Inteligência Artificial por Claudio Eduardo Moreira Cordeiro Rudimar Luís Scaranto Dazzi, Dr Orientador Itajaí (SC), novembro de 2010

2 UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS TECNOLÓGICAS DA TERRA E DO MAR CURSO DE CIÊNCIA DA COMPUTAÇÃO REDES NEURAIS ARTIFICIAIS X ANÁLISE MULTIVARIADA NA PREDIÇÃO DE JAR TEST Área de Inteligência Artificial por Claudio Eduardo Moreira Cordeiro Relatório apresentado à Banca Examinadora do Trabalho de Conclusão do Curso de Ciência da Computação para análise e aprovação. Orientador: Rudimar Luís Scaranto Dazzi, Dr Itajaí (SC), novembro de 2010

3 SUMÁRIO LISTA DE ABREVIATURAS... iv LISTA DE FIGURAS... v LISTA DE TABELAS... vi LISTA DE EQUAÇÕES... vii RESUMO... viii ABSTRACT... ix 1 INTRODUÇÃO PROBLEMATIZAÇÃO Formulação do Problema Solução Proposta OBJETIVOS Objetivo Geral Objetivos Específicos METODOLOGIA ESTRUTURA DO TRABALHO FUNDAMENTAÇÃO TEÓRICA ENSAIO DE COAGULAÇÃO REDES NEURAIS ARTIFICIAIS Modelos de um neurônio Arquiteturas de Rede Neural Artificial Processos de Aprendizagem Perceptrons de Múltiplas Camadas ANÁLISE MULTIVARIADA Regressão Múltipla R 2 Ajustado e coeficiente de correlação amostral Análise de componentes principais TRABALHOS SIMILARES Redes neurais artificiais aplicadas ao processo de coagulação Rede neural artificial aplicada à previsão de vazão da Bacia Hidrográfica do Rio Piancó O uso de Redes Neurais e Regressão Linear Múltipla na engenharia de avaliações: determinação dos valores venais de imóveis urbanos FERRAMENTAS PARA CRIAÇÃO DE RNA SNNS Stuttgart Neural Network Simulator JavaNNS Java Neural Network Simulator SIMBRAIN MATLAB ii -

4 2.6 FERRAMENTAS PARA ANÁLISE ESTATÍSTICA Calc Statistica Comparativo das ferramentas para modelagem e simulação de RNA DESENVOLVIMENTO PROJETO MODELOS UTILIZANDO RNA Resultados das RNAs Programa para criar os arquivos de padrões Programa para treinar as RNAs treinadas no JavaNNS REGRESSÃO MÚLTIPLA Normalidade e Linaridades das variáveis Resultados dos modelos de Regressão Linear Múltipla COMPARAÇÃO DOS MODELOS CONCLUSÕES PROJETOS FUTUROS...64 REFERÊNCIAS BIBLIOGRÁFICAS GLOSSÁRIO iii-

5 LISTA DE ABREVIATURAS AESA ANA ETA IPTU IPVR ITBI MLP RNA SNNS TCC UNIB UNIVALI UTA X11R4 X11R5 Agência Executiva de Gestão da Águas do Estado da Paraíba Agência Nacional de Águas Estação de Tratamento de Água Imposto Predial e Territorial Urbano Institute for Parallel and Distributed High Performance Systems Imposto sobre Transmissão de Bens Imóveis Multilayer Perceptron Redes Neurais Artificiais Stuttgart Neural Network Simulator Trabalho de Conclusão de Curso Unidade de Insumos Básicos da Braskem Universidade do Vale do Itajaí Unidade de Tratamento de Água X Window System - Version 11 release 4 of the X protocol X Window System - Version 11 release 5 of the X protocol - iv -

6 LISTA DE FIGURAS Figura 1. Metodologia utilizada... 5 Figura 2. Aparelho de jar test... 9 Figura 3. Modelo não-linear de um neurônio Figura 4. Outro modelo não-linear de um neurônio Figura 5. Função de Limiar Figura 6. Função Linear Figura 7. Função Limiar por Partes Figura 8. Função Sigmóide Figura 9. Rede alimentada adiante com camada única Figura10.RNA alimentada adiante com uma camada oculta e uma camada de saída.16 Figura11.RNA recorrente sem laços de auto-alimentação e sem neurônios ocultos.. 17 Figura 12. Aprendizagem supervisionada Figura 13. Aprendizado por reforço Figura 14. Aprendizagem não-supervisionada Figura 15. Rede MLP com duas camadas ocultas Figura 16. Ambiente de desenvolvimento do SNNS Figura 17. Ambiente de desenvolvimento do JavaNNS Figura 18. Ambiente de trabalho do Simbrain Figura 19. Duas RNAs interagindo no Simbrain Figura 20. Ambiente de trabalho do MATLAB Figura 21.Neural Network Toolbox Figura 22. Ambiente de trabalho do Calc Figura 23. Ambiente de trabalho do Statistica Figura 24. Valores da turbidez da água bruta...47 Figura 25. Valores do ph da água bruta Figura 26. Uma Arquitetura de RNA MLP com nove neurônios na camada oculta.. 49 Figura 27. Arquivo de padrões para predição do teste do jarro Figura 28. Ferramenta snns2c em funcionamento Figura 29. Programa para criação de arquivos de padrões Figura 30. Programa para simular a RNA...54 Figura 31. Gráfico de probabilidades normal das variáveis...56 Figura 32. Valores preditos X valores observados da turbidez decantada...61 Figura 33. Valores preditos X valores observados do ph decantada v -

7 LISTA DE TABELAS Tabela 1. Dados para Regressão Linear Múltipla Tabela 2. Grau de relacionamento entre as variáveis Tabela 3. Melhor Arquitetura para o período de teste Tabela 4. Resultado das melhores simulações Tabela 5. Ajuste do modelo de regressão Tabela 6. Ferramentas de simulação de RNA Tabela 7. Frequências da turbidez da água bruta Tabela 8. Frequências do ph da água bruta...48 Tabela 9. Arquiteturas de RNA treinadas e simuladas...50 Tabela 10. Fatores de ormalização...50 Tabela 11. Resultados dos modelos de RNA...53 Tabela 12. Resultados dos Modelos de Regressão...57 Tabela 13. Desempenho dos melhores modelos Tabela 14. Resultados das simulações dos modelos vi -

8 LISTA DE EQUAÇÕES Equação Equação Equação Equação Equação Equação Equação Equação Equação Equação Equação Equação Equação Equação Equação Equação Equação Equação vii -

9 RESUMO MOREIRA CORDEIRO, Claudio Eduardo. Redes Neurais Artificiais X Análise Multivariada na Predição de Jar Test. Itajaí, f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) Centro de Ciências Tecnológicas da Terra e do Mar, Universidade do Vale do Itajaí, Itajaí, Em Estações de Tratamento de Água (ETA) são realizadas vários tipos de análises para se conhecer as características da água a ser tratada para depois ser fornecida para a população. Uma dessas análises é o Teste do Jarro (Jar Test). O Teste do Jarro serve para saber a dosagem ótima de coagulante que deve ser usada na água bruta em uma Estação de Tratamento de Água. Com o Teste do Jarro é realizado em laboratório a repetição das três fases consideradas na prática, como essenciais na formação da coagulação nas estações de tratamento de água. As três fases são, respectivamente: mistura rápida, mistura lenta e decantação. Saber a dosagem correta de coagulante para misturar na água bruta é fundamental em uma ETA, pois é a fase de coagulação que vai determinar se a água bruta vinda do rio, irá sair cristalina e livre de impurezas no final do tratamento. As características da água que é utilizada no teste do jarro têm grande influência no processo de coagulação e consequentemente no resultado final do teste do jarro. Algumas destas características são: turbidez, ph, alcalinidade, temperatura e cor. Este trabalho tem o objetivo de realizar um estudo para conhecer a viabilidade de um modelo teórico conhecendo-se apenas a turbidez, o ph e a alcalinidade da água bruta. Foram utilizados três modelos para realizar o estudo; um utilizando Redes Neurais Artificiais e outros dois utilizando Análise Multivariada. Os resultados gerados pelos três modelos foram confrontados com resultados do teste real para verificar sua eficácia. Foram obtidos bons resultados para a predição do ph da água decantada. Também foram obtidos resultados satisfatórios para a predição da turbidez da água decantada, levando em conta que os modelos utilizaram poucas variáveis explicativas. Palavras-chave: Teste do Jarro, Redes Neurais Artificiais, Análise Multivariada. - viii -

10 ABSTRACT In water treatment stations are carried out several types of analysis to know the characteristics of water to be treated and then provided to the population. One such analysis is the Jar Test. The Jar Test is used to find out the optimum dose of coagulant to be used in raw water at a water treatment stations. With Jar Test is conducted in the laboratory to repeat the three phases considered in practice as essential in the formation of coagulation in water treatment stations. These three phases are, respectively, rapid mixing, slow mixing and sedimentation. Knowing the correct dosage of coagulant to mix in raw water is key in an water treatment station, it is the coagulation phase that will determine if the raw water from the river, you will leave crystalline and free of impurities at the end of treatment. The characteristics of water that is used in the jar test has a great influence on the clotting process and hence the final outcome of the jar test. Some of these features are: turbidity, ph, alkalinity, temperature and color. This paper aims to conduct a study to assess the viability of a theoretical model knowing only the turbidity, ph and alkalinity of raw water. Three models will be used to conduct the study, using an Artificial Neural Networks and two using Multivariate Analysis and Factorial Regression. The results generated by the two models will be confronted with the actual test results to verify its effectiveness. If both models are effective, will occur which is right and what it offers greater precision in predicting outcomes. Good results were obtained to predict the ph of the decanted water. Were also obtained satisfactory results for predicting the turbidity of settled water, taking into account that the models used little explanatory variables. Keywords: Jar Test, Artificial Neural Networks, Multivariate Analysis. - ix -

11 1 INTRODUÇÃO Em Estações de Tratamento de Água (ETA) são realizadas vários tipos de análises para se conhecer as características da água a ser tratada para depois ser fornecida para a população. Uma dessas análises é o Teste do Jarro (Jar Test). O Teste do Jarro serve para se saber a dosagem ótima de coagulante que deve ser usada na água bruta em uma Estação de Tratamento de Água. Com o Teste do Jarro é realizado em laboratório a repetição das três fases consideradas na prática como essenciais na formação da coagulação, nas estações de tratamento de água. Estas três fases são, respectivamente: mistura rápida, mistura lenta e decantação. Saber a dosagem correta de coagulante para misturar na água bruta é fundamental em uma ETA, pois é a fase de coagulação que vai determinar se a água bruta vinda do rio irá sair cristalina e livre de impurezas no final do tratamento. Na época de estiagem é suficiente apenas um teste por dia, desde que as características físicoquímicas da água permaneçam inalteradas. Na época de chuva o ph varia constantemente exigindo grande atenção do operador e neste caso deverá executar dois ou mais Jar Test por dia (CARVALHO e SANTOS, 2010). Para realizar essa tarefa sem precisar fazer o teste real, utilizou-se três métodos: dois por meio de Análise Multivariada e outro com Redes Neurais Artificiais (RNA). Os resultados alcançados com a aplicação desses métodos foram comparados com valores de referência para verificar sua eficácia. Inicialmente pretendia-se utilizar apenas Regressão Linear Múltipla como técnica de Análise Multivariada, mas durante a realização do trabalho, decidiu-se utilizar também Regressão Fatorial para tentar melhorar os resultados do modelo de Regressão Linear. Segundo Menezes et al.(2009), ensaios de teste de jarro demoram a ser executados, não respondendo em tempo real às mudanças das características da água bruta. As técnicas de predição aqui apresentadas, visam superar esta limitação.

12 1.1 PROBLEMATIZAÇÃO Formulação do Problema Calcular os resultados de um teste do jarro, fornecendo os valores dos parâmetros de entrada do teste e obtendo como resultados, valores próximos aos resultados de uma análise de Jar Test real. Conhecer os resultados do Teste do Jarro sem precisar fazê-lo é útil e permite uma maior agilidade no tratamento, pois o procedimento é demorado e despende completa atenção por parte do operador ou monitor, que poderia estar sendo usada para outras finalidades Solução Proposta Como resultado final deste trabalho, obteve-se os seguintes modelos para predizer os valores de turbidez e ph da água decantada nos jarros ao final de um jar test: 1 RNA que realiza previsões, simultaneamente, dos valores de turbidez e ph da água decantada; 2 Equações de Regressão Linear Múltipla. Uma para realizar previsões dos valores de turbidez, e outra, para fazer previsões do ph da água decantada, ao final de um jar test; 2 Equações desenvolvidas por meio de Regressão Fatorial. Uma para realizar previsões dos valores de turbidez, e outra, para fazer previsões do ph da água decantada, ao final de um jar test. O problema proposto neste trabalho foi resolvido de duas formas, a primeira utilizando uma RNA e, a segunda, utilizando Análise Multivariada. Os resultados obtidos foram comparados com valores de referência retirados de testes reais, para verificar sua eficácia. Os modelos implementados pelos dois métodos foram comparados, para verificar qual é o mais adequado para o problema em questão. 1.2 OBJETIVOS Objetivo Geral - 2 -

13 Fazer um estudo para determinação dos resultados de um Jar Test utilizando Redes Neurais Artificiais e Análise Multivariada, para identificar qual dos dois métodos é mais indicado para essa aplicação Objetivos Específicos Para atingir o objetivo geral serão necessários os seguintes objetivos específicos: Pesquisar e analisar soluções existentes; Modelar uma RNA para determinação dos resultados de um Jar Test; Modelar uma Análise Multivariada para determinação dos resultados de um Jart Test; Testar os modelos para determinar sua eficácia; Testar os modelos para determinar qual é o mais indicado ou eficiente; e Documentar o resultado da pesquisa juntamente com o estudo feito sobre o tema escolhido. 1.3 Metodologia Para a realização deste projeto, foi seguida a seguinte metodologia: 1. Estudo do Jar Test: Realizado um estudo sobre o funcionamento do teste do jarro e os fatores que influenciam na coagulação da água; 2. Estudo das RNAs: Realizado um estudo aprofundado sobre RNAs, principalmente as RNAs MLP, que foram as arquiteturas de redes neurais artificiais utilizadas neste trabalho; 3. Estudo sobre Análise Multivariada: Realizado estudo sobre Análise Multivariada, principalmente as técnicas de Regressão Linear Múltipla e Regressão Fatorial; 4. Estudo de trabalhos similares: Foi realizado estudo sobre trabalhos que utilizaram RNAs e Análise Multivariada; 5. Definição da arquitetura de Rede Neural Artificial a ser utilizada: Incluindo número de neurônios na camada de entrada, número de neurônios na camada de saída, quantidade de camadas intermediárias, número de neurônios nas camadas intermediárias, paradigma de aprendizagem e algoritmo de treinamento. Optou-se por uma arquitetura do tipo RNA MLP, com uma camada oculta; - 3 -

14 6. Definição da técnica multivariada mais adequada para a construção dos modelos estatísticos; 7. Definição do ambiente a ser utilizado no treinamento das RNAs: Após análise de quatro (4) ambientes de desenvolvimento de RNAs, optou-se pela ferramenta Java Neural Network Simulator JavaNNS, desenvolvida na Whilhelm Schickard Institute for Computer Science (WSI) em Tübingen, Alemanha; 8. Definição do software estatístico para a construção dos modelos estatísticos: Optou-se pelo software STATISTICA 6.0; 9. Criação dos arquivos de padrões das RNAs: Definida a quantidade de neurônios na camada de entrada e na camada de saída, os dados a serem utilizados e o ambiente de treinamento das RNAs a ser utilizado, realizou-se o estudo do layout dos arquivos de treinamento e validação. Foi implementada uma ferramenta utilizando a linguagem C++, afim de automatizar a criação dos arquivos de treinamento e validação utilizados pelo JavaNNS. 10. Fazer a Análise de Componentes Principais, com o propósito de avaliar a importância relativa das variáveis que compõem a amostra de dados: Foi realizada uma análise de componentes principais afim de melhorar o desempenho do modelo de Regressão Linear Múltipla, que foi a técnica escolhida primeiramente para gerar o modelo estatístico. 11. Simular as RNAs treinadas: Para a simulação das RNAs foi utilizada a ferramenta snns2c.exe que vem junto com o ambiente SNNS. Também foi utilizado o ambiente de programação Dev C++ para a criação dos simuladores das RNAs utilizando a linguagem C; juntamente com o código-fonte que contém os pesos das RNAs ajustados, gerado pela ferramenta snns2c. 12. Realizar análise estatística dos resultados das RNAs: Após o treinamento e simulação das RNAs foram realizadas análises estatísticas para se conhecer a RNA que obteve melhor desempenho na simulação dos resultados reais. 13. Construção dos modelos estatísticos: Foram construídos dois modelos estatísticos. Um para realizar a predição da turbidez da água decantada no jarro, e outra, para fazer a predição do ph da água decantada no jarro após o tempo de decantação do jar test; - 4 -

15 14. Comparar valores simulados pelos modelos estatísticos com valores reais: Foi realizada análise estatística para conhecer o grau de eficácia dos modelos estatísticos para simular os valores de turbidez e ph da água decantada do jar test; 15. Comparar o desempenho do modelo de RNA com os modelos estatísticos: Foram realizadas análises estatísticas com a finalidade de comparar o desempenho dos modelos gerados; e 16. Documentação do projeto: Todo o projeto foi documentado. Os dados das análises de jar test, os arquivos de padrões de treinamento e validação das RNAs e os resultados dos principais modelos gerados encontram-se nos anexos desse documento. A Figura 1 mostra o mapa conceitual da metodologia utilizada. Figura 1. Metodologia utilizada 1.4 Estrutura do trabalho Este TCC divide-se em quatro capítulos: Introdução, Fundamentação Teórica, Desenvolvimento e Conclusões

16 Na Introdução apresenta-se uma descrição do contexto, importância e justificativa do projeto, os objetivos gerais e específicos, a metodologia e a estrutura do trabalho. Na Fundamentação Teórica descrevem-se todos os conceitos necessários para a realização do projeto. No desenvolvimento é mostrado como foi realizado a construção dos modelos para a solução do problema e os resultados conseguidos. No último capítulo, Conclusões, apresentam-se as conclusões sobre os resultados conseguidos, os problemas encontrados, uma avaliação sobre a metodologia utilizada e soluções propostas

17 2 FUNDAMENTAÇÃO TEÓRICA Em uma Estação de Tratamento de Água (ETA), conhecer a dosagem correta de coagulante que deve ser despejada na água bruta é fundamental para um tratamento eficaz e eficiente da água, evitando custos e excesso de residuais químicos na água fornecida para a população. O teste do jarro (jar test), é uma análise realizada nas ETAs para se saber a dosagem ótima de coagulante que deve ser despejada na água bruta durante o tratamento. Para Rauber (?), uma das áreas de pesquisa mais fascinante presentemente é a simulação de capacidades cognitivas de um ser humano. Projetam-se máquinas capazes de exibir um comportamento inteligente, como se fossem reações humanas. As RNAs procuram imitar o funcionamento do cérebro humano em um ambiente técnico, utilizando hardwares e softwares. As RNAs têm sido muito utilizadas na resolução de problemas, dentre os quais destacam-se: análise de processamento de sinais, robótica, classificação de dados, predição, e otimização. Para Vicini e Souza (2005), estabelecer relações, descobrir leis explicativas ou propor novas leis para os diversos fenômenos que nos cercam, é característica da ciência. Para isso, é necessário trabalhar com as variáveis que são consideradas importantes para o entendimento do fenômeno analisado. Existe muita dificuldade em transformar as informações obtidas em conhecimento, principalmente quando se trata da avaliação estatística dos dados. Os métodos estatísticos, para analisar variáveis, estão dispostos em dois grupos: um que trata da estatística que olha as variáveis de maneira isolada a estatística univariada, e outro que olha as variáveis de forma conjunta a estatística multivariada. A denominação Análise Multivariada corresponde a um grande número de métodos e técnicas que utilizam, simultaneamente, todas as variáveis na interpretação teórica do conjunto de dados obtidos (NETO apud VICINI e SOUZA, 2005, p. 10). 2.1 Ensaio de coagulação O Ensaio de Coagulação ou Teste do Jarro, é um procedimento muito utilizado em Estações de Tratamento de Água para determinar a dosagem ótima de coagulante a ser despejada na água bruta. Segundo o Manual Prático de Análise de Água (FUNDAÇÃO NACIONAL DE SAÚDE, 2004), podemos dizer que o teste do jarro é uma simulação do que ocorre na ETA

18 Basicamente, o teste do jarro é composto por seis jarros de um ou dois litros onde a água bruta é colocada junto com uma solução de coagulante. As águas dos jarros são agitadas por hastes com pás que simulam as misturas rápidas e lentas ocorridas nos floculadores das ETAs. De acordo com Carvalho e Santos (?), deve-se determinar a cor, turbidez, ph e alcalinidade da água bruta utilizada para realizar o teste. Para o Manual Prático de Análise de Água (FUNDAÇÃO NACIONAL DE SAÚDE, 2004), é necessário que se conheça previamente as seguintes características da água bruta: turbidez, ph, Alcalinidade, cor e temperatura; além de parâmetros hidráulicos da ETA, como: vazão, tempo de detenção no floculador, velocidade de sedimentação no decantador, etc. Para o Manual Prático de Análise de Água (FUNDAÇÃO NACIONAL DE SAÚDE, 2004), o produto químico mais comum usado como coagulante é o sulfato de alumínio. O sulfato de alumínio é um composto de alumínio utilizado em tratamento de esgotos, na purificação de água potável e na indústria de papel. A turbidez é a palavra usada para descrever as partículas em suspensão na água. Essas partículas podem ser: areia, argila, material mineral, resíduo orgânico, plâncton e outros microorganismos que impedem a passagem de luz através da água. Uma turbidez da água tratada acima de cinco já é perceptível, e consequentemente, é um fator importante que pode acarretar a rejeição da água pelo consumidor (Ibidem). O ph mede a intensidade de acidez e basicidade, podendo sua escala variar de zero a quatorze. Valores do ph abaixo de 7,0 é ácido e valores acima de 7,0 é básico. Água com ph igual a 7,0 é considerado neutro. O ph é importante no tratamento de água, e determinante no controle de coagulação, que é o processo simulado pelo jar test (Ibidem). De acordo com Carvalho e Santos (?), a cor é causada pela existência de substâncias coloridas em solução, na grande maioria dos casos, de natureza orgânica. Lagos e represas apresentam águas coloridas com freqüência, devido a material orgânico, ferro e manganês. A cor constitui uma característica de ordem estética e seu acentuado teor pode causar repugnância ao consumidor que, consequentemente, pode rejeitá-la. A alcalinidade da água é causada por íons e é importante para que as partículas em suspensão na água bruta reajam com o sulfato de alumínio (Ibidem)

19 A Figura 2 mostra o aparelho de jar test que será utilizado na obtenção dos dados para a realização deste trabalho. Figura 2. Aparelho de jar test 2.2 Redes Neurais Artificiais As Redes Neurais Artificiais também são conhecidas como conexionismo ou sistemas de processamento paralelo e distribuído. Segundo Braga, Ludermir e Carvalho (2000), as RNAs são caracterizadas por sistemas que relembram a estrutura do cérebro humano, e que, por não ser baseada em regras ou programas, a computação neural se constitui em uma alternativa à computação algorítmica convencional

20 Para Braga, Ludermir e Carvalho(2000), RNAs são sistemas paralelos distribuídos compostos por unidades de processamento simples (nodos) que calculam determinadas funções matemáticas, que geralmente são não-lineares. Haykin (2001), apresenta a seguinte definição de RNA adaptada de Aleksander e Morton (1990 apud HAYKIN, p. 28): Uma rede neural é um processador maciçamente paralelamente distribuído constituído de unidades de processamento simples, que têm a propensão natural para armazenar conhecimento experimental e torná-lo disponível para o uso. Ela se assemelha ao cérebro em dois aspectos: 1. O conhecimento é adquirido pela rede a partir de seu ambiente através de um processo de aprendizagem. 2. Forças de conexão entre neurônios, conhecidas como pesos sinápticos, são utilizadas para armazenar o conhecimento adquirido. Segundo Braga, Ludermir e Carvalho (2000), a forma como problemas são representados internamente pela RNA e o paralelismo natural inerente à arquitetura das RNAs possibilitam um desempenho superior ao dos modelos convencionais. Para Braga, Ludermir e Carvalho (2000), em RNAs, o procedimento usual na solução de problemas passa primeiro por uma fase de aprendizagem, em que um conjunto de exemplos é fornecido para a RNA, a qual extrai automaticamente as características necessárias para representar a informação fornecida. As características extraídas do conjunto de exemplos são posteriormente utilizadas para gerar respostas para o problema. Haykin (2001), afirma que uma RNA extrai seu poder computacional através de sua estrutura maciçamente paralelamente distribuída e também de sua habilidade de generalizar. A generalização se refere ao fato de a RNA produzir saídas adequadas para entradas que não foram usadas durante o treinamento. Segundo Haykin (2001), Estas duas capacidades de processamento de informação tornam possível para as RNAs resolver problemas complexos (de grande escala) que atualmente são intratáveis. Haykin (2001), adverte que, na prática, as RNAs não podem oferecer uma solução para problemas de grande escala trabalhando individualmente e que, é preciso decompor o problema em um número relativamente simples de tarefas, e atribuir às RNAs as tarefas que coincidem com suas capacidades inerentes

21 Sousa e Sousa (2009), afirmam que, modelos RNAs são particularmente úteis em situações nas quais as relações dos processos físicos ainda não são completamente compreendidas e que eles podem substituir os modelos matemáticos e estatísticos convencionais ou se associar a eles Modelos de um neurônio Segundo Braga, Ludermir e Carvalho (2000), o primeiro modelo de um neurônio artificial foi proposto em um trabalho pioneiro por Warren McCulloch e Walter Pitts em 1943 e era uma simplificação do que se sabia na época a respeito do neurônio biológico. Kovács (1996), comenta que o modelo de McCulloch e Pitts, embora rudimentar quando comparado ao potencial dos modelos atualmente disponíveis, foi inovador e seminal. Segundo Kovács (1996), vários fundadores de algumas das chamadas modernas áreas de conhecimento, como Marvin Minsky em inteligência artificial, John Von Neumann em ciência da computação e Norbert Wiener em cibernética, tiveram em algum momento de suas carreiras, inspiração no trabalho de McCulloch e Pitts. Para Haykin (2001), um neurônio artificial é uma unidade de processamento de informação que é fundamental para a operação de uma RNA. A Figura 3, segundo Haykin (2001), mostra o modelo de um neurônio, que forma a base para o projeto de RNAs. Figura 3. Modelo não-linear de um neurônio Fonte: Haykin (2001)

22 Haykin (2001), identifica três elementos básicos do modelo neuronal: 1. Um conjunto de sinapses ou elos de conexão, cada uma caracterizada por um peso. Especificando, um sinal x j na entrada da sinapse j conectada ao neurônio k é multiplicado pelo peso sináptico w kj. O primeiro índice do peso sináptico w kj se refere ao neurônio em questão e o segundo se refere ao terminal de entrada da sinapse à qual o peso se refere. O peso sináptico de um neurônio artificial pode estar em um intervalo que inclui tanto valores positivos quanto negativos. 2. Um somador para somar os sinais de entrada, ponderados pelas respectivas sinapses do neurônio; estas operações constituem um combinador linear. 3. Uma função de ativação para restringir a amplitude de saída de um neurônio. A função de ativação restringe (limita) o intervalo permissível de amplitude do sinal de saída a um valor finito. A função de ativação também é referida como função restritiva. Geralmente, o intervalo normalizado da amplitude da saída de um neurônio é escrito como o intervalo unitário fechado [0,1] ou alternativamente [-1,1]. O modelo de neurônio artificial da Figura 3 inclui também um bias aplicado externamente, representado por b k. Segundo Haykin (2001), o bias tem o efeito de aumentar ou diminuir a entrada líquida da função de ativação. Se o bias for positivo ele aumenta, se for negativo, diminui. equações: Em termos matemáticos, podemos descrever um neurônio k, escrevendo o seguinte par de u k = m j= 1 w kj x j Equação 1 k ( u b ) y = + Equação 2 k k onde u k é a saída do combinador linear devido aos sinais de entrada; x 1, x 2,...,x m são os sinais de entrada; w k1, w k2,..., w km são os pesos sinápticos do neurônio k; b k é o bias; (.) é a função de ativação; e y k é o sinal de saída do neurônio. O uso do bias b k aplica um transformação afim à saída u k do combinador linear no modelo da Figura 3. Temos então que: v = u + b Equação 3 k k k

23 Para Haykin (2001), podemos reformular o modelo do neurônio k da Figura 3 como no modelo da Figura 4. Figura 4. Outro modelo não-linear de um neurônio Fonte: Adaptado de Haykin (2001). Tipos de Função de Ativação Haykin (2001), identifica três tipos básicos de função de ativação: função de limiar, função linear por partes e função sigmóide. Braga, Ludermir e Carvalho (2000), apontam também a função de ativação linear. 1. Função de Limiar 1se ν 0 ( v) = Equação 4 0 seν < 0 Figura 5. Função de Limiar Fonte: Adaptado de Haykin (2001)

24 2. Função Linear y = ax Equação 5 Figura 6. Função Linear Fonte: Adaptado de Braga, Ludermir e Carvalho (2000). Segundo Braga, Ludermir e Carvalho (2000), a função linear pode ser restringida para gerar valores constantes em uma faixa [-a, +a], e nesse caso a função passa a ser a função linear por partes como mostra graficamente a Figura Função Linear por Partes ( v ) 1 1, v = v, + > v > 2 1 0, v Equação 6 Figura 7. Função Limiar por Partes Fonte: Adaptado de Haykin (2001)

25 4. Função Sigmóide ( v) 1 = 1+ exp ( av) Equação 7 Figura 8. Função Sigmóide Fonte: Adaptado de Haykin (2001) Segundo Haykin (2001), a função sigmóide, cujo gráfico tem a forma de S, é a forma mais comum de função de ativação utilizada na construção de RNAs. Um exemplo de função sigmóide é a função logística, definida pela Equação 7, onde a é o parâmetro de inclinação da função sigmóide Arquiteturas de Rede Neural Artificial Segundo Braga, Ludermir e Carvalho (2000), a definição da arquitetura é um parâmetro importante na concepção de uma RNA, pois a arquitetura restringe o tipo de problema que pode ser tratado pela rede. Eles ainda comentam que, RNAs com uma camada única de neurônios só conseguem resolver problemas linearmente separáveis e que RNAs recorrentes são mais apropriadas para resolver problemas que envolvem processamento temporal. Para Haykin (2001), podemos identificar três classes de arquiteturas de RNA fundamentalmente diferentes: 1. Redes Alimentadas Adiante com Camada Única A RNA da Figura 9 é chamada de rede de camada única, sendo que o nome camada única se refere à camada de saída de neurônios. Não contamos a camada de entrada de nós de fonte, porque lá não é realizada qualquer computação (HAYKIN, 2001)

26 Figura 9. Rede alimentada adiante com camada única Fonte: Haykin (2001) 2. RNAs Alimentadas Diretamente com Múltiplas Camadas A RNA alimentada adiante (Figura 10) se diferencia pela presença de uma ou mais camadas ocultas, cujos nós computacionais são chamados correspondentemente de neurônios ocultos ou unidades ocultas. A função dos neurônios ocultos é intervir entre a entrada externa e a saída da rede de uma maneira útil. Adicionando-se uma ou mais camadas ocultas, tornamos a rede capaz de extrair estatísticas de ordem elevada (HAYKIN, 2001). Figura 10. RNA alimentada adiante com uma camada oculta e uma camada de saída Fonte: Haykin (2001) 3. Redes Recorrentes

27 Segundo Haykin (2001), uma rede neural artificial recorrente se distingue de uma rede neural artificial alimentada adiante por ter pelo menos um laço de realimentação. Uma rede neural recorrente pode consistir de uma única camada de neurônios com cada neurônio alimentando seu sinal de saída de volta para as entradas de todos os outros neurônios, como ilustrado na Figura 11. Embora a rede da Figura 11 não possua neurônios ocultos e nem laços de auto-realimentação, uma RNA recorrente também pode ter neurônios ocultos e laços de auto-realimentação. Figura 11. RNA recorrente sem laços de auto-alimentação e sem neurônios ocultos Fonte: Haykin (2001) Processos de Aprendizagem Para Haykin (2001), a habilidade de aprender a partir de seu ambiente e de melhorar o seu desempenho através da aprendizagem, é uma propriedade de primordial importância para uma rede neural artificial. Uma RNA aprende acerca do seu ambiente através de um processo interativo de ajustes aplicados a seus pesos sinápticos e níveis de bias. Idealmente, a rede se torna mais instruída sobre o seu ambiente após cada iteração do processo de aprendizagem. (HAYKIN, 2001). Para que se possa resolver um problema usando-se RNA, o primeiro passo é estabelecer um conjunto de pesos para suas conexões, ativar um conjunto de unidades que correspondam a um padrão de entrada e observar o padrão para que o qual a rede converge e em que se estabiliza (AZEVEDO;BRASIL;OLIVEIRA, 2000). Caso o padrão final não corresponda ao que se deseja associar, como resposta ao padrão de entrada, é preciso fazer ajustes nos pesos e ativar novamente o padrão de entrada. Por causa de sua

28 semelhança com o aprendizado humano, esse processo de ajustes sucessivos das RNA é chamado de aprendizagem (AZEVEDO;BRASIL;OLIVEIRA, 2000, p.22). Paradigmas de aprendizagem 1. Aprendizagem com um professor Segundo Haykin (2001), um professor tem o conhecimento sobre o ambiente, com este conhecimento sendo representado por um conjunto de exemplos de entrada-saída. Porém, o ambiente é desconhecido pela RNA de interesse. Supondo que o professor e a RNA sejam expostos a um vetor de treinamento retirado do ambiente. O professor, em virtude de seu conhecimento prévio, é capaz de fornecer à RNA uma resposta desejada para aquele vetor de treinamento. (HAYKIN, 2001). Para Haykin(2001), a resposta desejada para uma RNA é a ação ótima a ser realizada pela rede neural. A Figura 12 mostra um diagrama que ilustra a aprendizagem com um professor, também conhecida como aprendizagem supervisionada. Figura 12. Aprendizagem supervisionada Fonte: Haykin (2001) 2. Aprendizagem sem um professor Na aprendizagem com um professor, a aprendizagem acontece sob a supervisão de um professor. No paradigma conhecido como aprendizagem sem um professor, não há um professor

29 para supervisionar o processo de aprendizagem, o que significa que não existem exemplos rotulados da função a ser aprendida pela rede. (HAYKIN, 2001). Para Haykin (2001), neste paradigma são identificadas duas subdivisões: Aprendizagem por reforço: Na aprendizagem por reforço, o aprendizado de um mapeamento de entrada-saída é realizado através da interação contínua com o ambiente, visando minimizar um índice escalar de desempenho. (HAYKIN, 2001). A Figura 13 mostra o processo de aprendizado por reforço. Figura 13. Aprendizado por reforço Fonte: Haykin (2001) Aprendizagem não-supervisionada: Na aprendizagem não-supervisionada não há um professor externo para supervisionar o processo de aprendizado da rede neural. Porém, são dadas condições para realizar uma medida independente da tarefa da qualidade da representação que a rede neural artificial deve aprender, e os parâmetros livre da rede são otimizados em relação a esta medida. (HAYKIN, 2001). A Figura 14 mostra o processo de aprendizado não-supervisionado. Figura 14. Aprendizagem não-supervisionada Fonte: Haykin (2001) Perceptrons de Múltiplas Camadas As redes perceptrons de múltiplas camadas (MLP, multilayer perceptron) são uma importante classe de redes neurais artificiais. O sinal de entrada de uma rede MLP se propaga para frente através da rede, camada por camada. A rede consiste, tipicamente, de um conjunto de

30 unidades sensoriais (nós de fonte) que constituem a camada de entrada, uma ou mais camadas ocultas de nós computacionais e uma camada de saída de nós computacionais. (HAYKIN, 2001). Segundo Haykin (2001), os MLP têm sido aplicados com sucesso para resolver diversos problemas complexos, utilizando um algoritmo conhecido como algoritmo de retropropagação de erro (error back-propagation) que realiza o treinamento da rede de forma supervisionada. O algoritmo de retropropagação de erro é também conhecido como algoritmo de retropropagação (back-propagation). RNAs MLP apresentam um poder computacional muito maior do que aquele apresentado pelas RNAs sem camadas intermediárias (ocultas). MLPs podem tratar com dados que não são linearmente separáveis (BRAGA, LUDERMIR e CARVALHO, 2000). Segundo Braga, Ludermir e Carvalho (2000), a implementação da função objetivo e a precisão obtida dependem do número de neurônios utilizados na camada intermediária. Para Haykin (2001), uma rede MLP possui três características distintivas: 1. O modelo de cada neurônio da rede inclui uma função de ativação não-linear. A nãolinearidade deve ser suave, ou seja, diferenciável em qualquer ponto. 2. A rede contém uma ou mais camadas de neurônios ocultos, que não fazem parte da entrada ou da saída da rede. 3. A rede exibe um alto grau de conectividade, determinado pelas sinapses da rede. O perceptron de múltiplas camadas deriva seu poder computacional através da combinação destas características, juntamente com a habilidade de aprender da experiência através de treinamento. A Figura 15 mostra uma rede MLP com duas camadas ocultas (HAYKIN, 2001)

31 Figura 15. Rede MLP com duas camadas ocultas Fonte: Haykin (2001) Algoritmo de Retropropagação O algoritmo de retropropagação (back-propagation) é um algoritmo supervisionado que utiliza pares (entrada, saída desejada) para ajustar os pesos da rede utilizando um mecanismo de correção de erros. O treinamento ocorre em duas fases, em que cada fase percorre a rede em um sentido. Estas duas fases são conhecidas como fase forward e fase backward. A fase forward é utilizada para definir a saída da rede para um dado padrão de entrada. A fase forward utiliza a saída desejada e a saída fornecida pela rede para atualizar os pesos de suas conexões. (BRAGA; CARVALHO; LUDERMIR, 2000). passos: Segundo Braga, Carvalho e Ludermir (2000), a fase forward é composta pelos seguintes 1. A entrada é apresentada à primeira camada da rede, a camada C Para a camada C i a partir da camada de entrada 2.1 Após os nodos da camada C i (i > 0) calcularem seus sinais de saída, estes servem como entrada para a definição das saídas produzidas pelos nodos da camada C i

32 3. As saídas produzidas pelos nodos da última camada são comparadas às saídas desejadas. etapas: Braga, Carvalho e Ludermir (2000), comentam que a fase backward envolve as seguintes 1. A partir da última camada, até chegar na camada de entrada: 1.1 Os nodos da camada atual ajustam seus pesos de forma a reduzir seus erros. 1.2 O erro de um nodo das camadas intermediárias é calculado utilizando os erros dos nodos da camada seguinte conectados a ele, ponderados pelos pesos das conexões entre eles. Braga, Carvalho e Ludermir (2000), apresentam o algoritmo back-propagation a seguir: 1. Inicializar pesos e parâmetros. 2. Repetir até o erro ser mínimo ou até a realização de um dados número de ciclos: 2.1 Para cada padrão de treinamento X Definir saída da rede através da fase forward Comparar saídas produzidas com as saídas desejadas Atualizar pesos dos nodos através da fase backward. Fórmulas utilizadas pelo algoritmo back-propagation para atualização dos pesos da rede MLP: Segundo Braga, Carvalho e Ludermir (2000), as fórmulas de ajuste de pesos utilizadas pelo algoritmo back-propagation em uma rede MLP são as mostradas pelas Equação 8 e Equação 9: w = ηδ x Equação 8 ij j i w ji ( t ) = w ( t) + ηδ ( t) x ( t) +1 Equação 9 ji j i

33 Onde η é a taxa de aprendizado da rede e δ j é o erro do nodo j. Braga, Carvalho e Ludermir (2000), comentam que, caso o nodo for de saída, o erro δ j será definido pela Equação 10, caso contrário, δ j será definido pela Equação 11. j ( d y ) f '( net ) δ = Equação 10 j j j ( net ) δ = f ' w Equação 11 j j l l lj A Equação 11 define o termo net j. net j = n i= 1 x w i ji Equação Análise Multivariada Para Vicini e Souza (2005), podemos dispor em dois grupos os métodos estatísticos para analisar variáveis: um grupo trata da estatística que olha as variáveis de maneira isolada, também chamada de estatística univariada, e um outro grupo que olha as variáveis de forma conjunta, chamada de estatística multivariada. Segundo Vicini e Souza (2005), quando um fenômeno depende de muitas variáveis, geralmente a estratégica de analisar as variáveis de forma isolada e a partir dessa análise fazer inferências sobre a realidade falha, pois não basta conhecer informações estatísticas isoladas, mas também é necessário conhecer a totalidade dessas informações fornecidas pelo conjunto das variáveis e suas relações. Para Vicini e Souza (2005), o advento dos computadores apoiou e ampliou drasticamente a capacidade de obter informações de acontecimentos e fenômenos que estão sendo analisados. A denominação Análise Multivariada corresponde a um grande número de métodos e técnicas que utilizam, simultaneamente, todas as variáveis na interpretação teórica do conjunto de dados obtidos. (NETO apud VICINI e SOUZA, 2005, p. 10)

34 Podemos entender a Análise Multivariada como a técnica estatística que explora o poder de explicação que um conjunto de variáveis independentes têm, quando tomadas em conjunto. (DINIZ, 2000). Para Diniz (2000), em Análise Multivariada se pode formular a seguinte pergunta: É possível predizer uma variável (Y) a partir de um conjunto de outras (Xn)? Segundo Vicini e Souza (2005), existem vários métodos de análise multivariada, com finalidades bem diversas entre si, e que, antes de utilizar um desses métodos é preciso saber que tipo de hipótese se quer gerar a respeito dos dados. De acordo com Vicini e Souza (2005), os métodos de análise multivariada são escolhidos de acordo com os objetivos da pesquisa, pois a análise multivariada é uma análise exploratória de dados, que tem o objetivo de gerar hipóteses sobre os dados. Este trabalho usará a técnica de Regressão Múltipla para tentar predizer os resultados do teste do jarro utilizando modelos estatísticos multivariados. Mais especificamente, será usado o modelo de regressão linear múltipla Regressão Múltipla Para Montgomery e Runger (2003), análise de regressão é uma técnica estatística para modelar e investigar a relação entre duas ou mais variáveis. Várias aplicações da análise de regressão envolvem situações em que existem mais de uma variável independente. Um modelo de regressão que contenha mais de uma variável independente é chamado de um modelo de regressão múltipla. (MONTGOMERY e RUNGER, 2003). Montgomery e Runger (2003), descrevem um exemplo supondo que a vida útil de uma ferramenta de corte é dependente da velocidade de corte e do ângulo da ferramenta. Um modelo de regressão múltipla que pode descrever essa relação é Y = β + β x + β x ε Equação

35 Na Equação 13, Y representa a vida da ferramenta, x 1 representa a velocidade de corte, x 2 representa o ângulo de corte e ε é um termo de erro aleatório. Esse é um modelo de regressão linear múltipla com dois regressores. O termo linear é usado porque a Equação 13 é uma função linear dos parâmetros desconhecidos β 0, β 1 e β 2.(MONTGOMERY e RANGER, 2003). Montgomery e Runger (2003), afirmam que, em geral, a variável dependente ou de resposta, y, pode estar relacionada a k variáveis independentes ou regressores. Segundo os mesmos autores, a Equação 14 apresenta o modelo de regressão linear múltipla com k regressores. Y β + β x + β x + K + β x k + ε Equação 14 = k Os parâmetros β j, j= 0, 1,..., k, são chamados de coeficientes de regressão. Segundo Montgomery e Ranger (2003), esse modelo descreve um hiperplano no espaço k-dimensional dos regressores {x j }. O parâmetro β j representa a variação esperada na resposta Y por unidade de variação unitária em x j, quando todos os outros regressores x i (i j) forem mantidos constantes. Para Montgomery e Ranger (2003), modelos de regressão linear múltipla são frequentente usados como aproximações de funções. Isto significa que a verdadeira relação funcional entre Y e x 1, x 2,..., x k não é conhecida, porém, em determinadas faixas de variáveis independentes, o modelo de regressão linear é considerado uma aproximação adequada. Segundo Diniz (2000), a regressão linear múltipla: Traça através dos pontos marcados no diagrama de dispersão das variáveis x e y, um plano que minimiza as distâncias entre os pontos plotados; e Minimiza a soma dos quadrados de todos os desvios verticais dos valores reais em relação ao plano. Estimação de parâmetros pelo método dos mínimos quadrados Segundo Montgomery e Ranger (2003), o método dos mínimos quadrados pode ser usado para estimar os coeficientes de regressão no modelo de regressão linear múltipla da Equação

36 Supondo que n > k observações estejam disponíveis e fazendo x ij denotar a i-ésima observação ou nível da variável x j. As observações são (x i1, x i2,..., x ik, y i ), i= 1, 2,..., n e n > k Geralmente apresenta-se os dados para regressão múltipla em uma tabela parecida com a Tabela 1. (MONTGOMERY e RANGER, 2003). Tabela 1. Dados para Regressão Linear Múltipla Y x 1 x 2... x k y 1 x 11 x x 1k y 2 x 21 x x k y n x n1 x n2... x nk A Equação 15 mostra as equações normais de mínimos quadrados. (MONTGOMERY e RANGER, 2003). Montgomery e Ranger (2003), chamam a atenção para o número de equações normais. É uma equação para cada um dos coeficientes desconhecidos da regressão. Ou seja, o número de equações normais é p = k + 1. A solução para as equações normais serão os estimadores de mínimos quadrados dos coeficientes de regressão, ^ 0 ^ 1 ^ β, β, K, β. As equações normais podem ser resolvidas utilizando qualquer método de resolução de sistemas de equações lineares. k

37 = = = = = n i i n i ik k n i i n i i y x x x n 1 1 ^ ^ ^ 0 ^ β β β β K M M K M M = = = = = = n i n i ik i k n i i i n i i n i i x x x x x x x ^ ^ ^ ^ β β β β = = = = = = n i n i ik k n i i ik n i i ik n i i x x x x x x x ^ ^ ^ ^ β β β β K Equação R 2 Ajustado e coeficiente de correlação amostral Segundo Triola (2008), o R 2 representa o coeficiente de determinação múltipla, que é uma medida de quão bem a equação de regressão múltipla se ajusta aos dados amostrais. Segundo Triola (2008), para se ter um ajuste perfeito deve-se ter R 2 = 1. Quanto mais próximo de 1 é o valor de R 2, melhor será o ajuste. Tem-se um ajuste ruim, quando o valor de R 2 é próximo de 0. Triola (2008), comenta que, conforme variáveis vão sendo incluídas no modelo, R 2 cresce. Obtém-se um R 2 maior pela simples inclusão de todas as variáveis disponíveis, mas a melhor equação e regressão não usa, necessariamente, todas essas variáveis (TRIOLA, 2008). Por causa dessa falha, é recomendável que a comparação de diferentes equações de regressão múltipla seja feita com um ajuste no coeficiente de determinação, que é o R 2 ajustado para o número de variáveis e o tamanho amostral.

38 O coeficiente de determinação ajustado pode ser definido como o coeficiente de determinação múltipla R 2 modificado para levar em conta o número de variáveis e o tamanho amostral (TRIOLA, 2008). O coeficiente de determinação ajustado é calculado usando a Equação 16. Onde ( ) ( ) R 2 n 1 2 ajustado = 1 1 R Equação 16 n k + 1 [ ] ( ) n = tamanho amostral k = número de variáveis previsoras O coeficiente de correlação amostral é uma media de associação linear entre duas variáveis que não depende da unidade de mensuração. O coeficiente de correlação amostral é definido pela Equação 17. r ik = n j= 1 n j= ( x x )( x x ) 2 n ( x x ) ( x x ) ji ji i i jk j= 1 jk k 1 Equação 17 k 2 A correlação amostral r possui as seguintes propriedades: 1. Os valores de r devem ficar entre -1 e +1; 2. Se r = 0, então não existe associação linear entre as variáveis. Porém, se r < 0, há uma tendência de um dos valores do par ser maior que sua média, quando o outro for menor do que a sua média, e r > 0 indica que quando um valor do par for grande o outro também o será, além de ambos os valores tender a serem pequenos juntos; 3. Os valores de r ik não se alteram com a alteração da escala de uma das variáveis. Segundo Baptistella (2005), o relacionamento entre as variáveis, definido pelo valor de r, pode ser interpretado conforme a Tabela

39 Tabela 2. Grau de relacionamento entre as variáveis Coeficiente r = 0 Correlação Relação nula 0 < r 0,30 Relação fraca 0,30 < r 0,70 Relação média 0,70 < r 0,90 Relação forte 0,90 < r 0,99 Relação fortíssima r = 1 Relação perfeita Baptistella (2005), adverte que, nem sempre uma elevada correlação entre duas variáveis significa a existência de relação de causa e efeito entre as mesmas Análise de Componentes Principais Segundo Vicini e Souza (2005), Análise de Componentes Principais (ACP) é uma técnica da análise multivariada, que possibilita pesquisas com um grande número de dados disponíveis. Permite, também, a identificação das medidas responsáveis pelas maiores variações entre os resultados, sem perdas significativas de informações. A ACP também transforma um conjunto original de variáveis em outro conjunto: os componentes principais de dimensões equivalentes. Para Baptistella (2005), a ACP é utilizada para investigar as relações em um conjunto de dados de p variáveis correlacionadas. Para isso, o conjunto de variáveis originais deve ser transformado em um conjunto de variáveis não-correlacionadas chamadas de componentes principais, que tem propriedades especiais em termos de variâncias. O desenvolvimento da ACP foi conduzido, em parte, pela necessidade de se analisar conjunto de dados com muitas variáveis correlacionadas. A idéia matemática do método é conhecida há muito tempo, apesar do cálculo das matrizes dos autovalores e autovetores não ter sido possível até o advento da evolução dos computadores (VICINI e SOUZA, 2005). RNA. A ACP tem se mostrado muito útil como método auxiliar em Regressão Multivariada e

40 2.4 Trabalhos Similares A seguir são relacionados trabalhos que utilizaram redes neurais artificiais e análise multivariada dentro do contexto de predição de funções ou valores Redes neurais artificiais aplicadas ao processo de coagulação A Unidade de Insumos Básicos da Braskem (UNIB), através de sua Unidade de Tratamento de Água (UTA), fornece cerca de 90% da água demandada pelo Pólo Industrial de Camaçari, localizado a 45 quilômetros de Salvador. Nessa UTA, acontece o processo de clarificação de água. O processo de clarificação compreende as seguintes operações unitárias: coagulação, floculação e sedimentação (MENEZES et al 2009). Segundo Menezes et al (2009), no processo de coagulação realizado na UTA, o agente coagulante utilizado é o sulfato de alumínio, e o agente químico de ajuste de ph é o hidróxido de sódio. O sulfato de alumínio tem a função de reduzir as forças que tendem a manter separadas as partículas em suspensão, e o hidróxido de sódio tem por função manter o ph da solução durante o processo de coagulação dentro de uma faixa desejável para que a ação do coagulante seja satisfatória. A dosagem correta destes produtos depende da qualidade da água a ser tratada e é obtida por meio do teste do jarro. A água que abastece a UTA da UNIB vem do rio Joanes, que caracteriza-se por amplas variações de qualidade da água bruta. O tempo necessário para a execução do teste do jarro e as baixas freqüências da sua realização, não permitem respostas em tempo real às mudanças na qualidade da água a ser tratada (MAIER et al, 2004, apud MENEZES et al 2009). O objetivo principal deste trabalho é desenvolver um modelo de RNA que forneça predições de sulfato de alumínio e hidróxido de sódio, utilizados no tratamento de água na UTA. Foram construídos diversos modelos de RNAs, validados e testados com os resultados dos testes do jarro e das medidas de qualidade de água tratada, considerando uma série histórica de seis anos. A arquitetura de RNA utilizada na construção dos modelos foi a MLP. O número de camadas intermediárias e neurônios intermediários foram estimados por tentativa e erro. O número máximo de neurônios intermediários utilizados foi 22 e foram utilizadas no máximo duas camadas

41 intermediárias. As RNAs foram treinadas usando a versão do algoritmo de retropropagação momentum e os seus parâmetros de passo e momentum foram encontrados por tentativa e erro; as faixas testadas incluíram de 0,15 a 0,85 para cada parâmetro. Também foram testadas as funções sigmoidal e tangente hiperbólica como funções de transferência da camada intermediária. Os modelos foram construídos utilizado-se o pacote comercial Neurosolutions Professional (versão 3.0). O uso de RNAs permitiu o desenvolvimento de modelos para a criação de uma metodologia para a construção de uma ferramenta computacional com o objetivo de auxiliar no processo de coagulação. Os modelos desenvolvidos a partir de RNAs MLP forneceram resultados de predição compatíveis com os dados experimentais. Segundo Menezes et al (2009), o modelo desenvolvido a partir de RNAs MLP forneceu melhores resultados de predição em comparação aos modelos construídos a partir de regressão linear múltipla com os mesmos dados (MENEZES, 2008 apud MENEZES et al (2009), devido a não-linearidade das inter-relações das variáveis que estão envolvidas no processo de coágulofloculação e que podem ser captadas pelas RNAs. Contudo, Menezes et al (2009), advertem que as RNAs não permitem uma abordagem sobre aspectos físicos do sistema, pelo fato de que os pesos sinápticos criados na fase de modelagem não possuem nenhum significado físico Rede neural artificial aplicada à previsão de vazão da Bacia Hidrográfica do Rio Piancó Para Sousa e Sousa (2008), um dos principais desafios relacionados ao conhecimento integrado da climatologia e hidrologia é a previsão de vazão em um sistema hídrico, que é uma das técnicas utilizadas para minimizar o impacto das incertezas do clima sobre o gerenciamento dos recursos hídricos. Segundo Sousa e Sousa (2008), o modelo de RNA deste trabalho foi escolhido dentre os vários modelos existentes por ser um modelo empírico que tem tido ampla aceitação como forma

42 potencialmente eficaz de se modelar sistemas não-lineares e complexos com grande quantidade de dados. O objetivo deste estudo foi propor um modelo baseado em técnicas de RNA que sirva para predizer e simular vazões médias mensais na estação fluviométrica localizada na cidade de Piancó, no semiárido paraibano, com base em dados da precipitação média mensal, a montante dessa estação envolvendo, parte da bacia hidrográfica do rio Piancó. Sousa e Sousa (2008) comentam que, neste trabalho foram considerados valores da vazão média mensal referente à estação fluviométrica de Piancó, cedidos pela (ANA, 2010), e valores de precipitação média mensal de cinco postos pluviométricos: Piancó, Santa dos Garrotes, Nova Olinda, Itaporanga e Boa Ventura, obtidos junto à (AESA, 2010). O período de análise compreende janeiro de 1964 a dezembro de 2003, totalizando 120 meses de observação, enquanto a avaliação referente à qualidade dos dados foi feita por inspeção visual analisando-se a consistência e o tamanho das séries (SOUSA e SOUSA, 2008, p. 175). As RNAs utilizadas para construir o modelo foram do tipo MLP com três camadas. A camada de entrada, uma única camada oculta e a camada de saída. Os neurônios da camada oculta possuem função de ativação sigmóide e, os da camada de saída, possuem neurônios com função de ativação linear. Neste estudo foram utilizadas diversas arquiteturas a fim de escolher aquela que melhor prediga as vazões médias mensais da bacia em estudo. A metodologia utilizada na pesquisa da arquitetura da RNA foi a de variar o número de neurônios na camada de entrada, o número de neurônios e a função de transferência na camada oculta. Em todas as RNAs, o treinamento foi realizado utilizando-se a técnica de otimização de Levenberg-Marquardt. A motivação pela utilização deste método no treinamento das RNAs se justifica não só por se tratar de uma ótima técnica para aproximação de relações não-lineares mas também por ser rápida e já ter produzido bons resultados (SOUSA e SOUSA, 2008, p. 175). Foram utilizados 120 dados, os quais foram separados em 72 valores para treinamento, 24 valores para validação e 24 valores para teste. Antes de iniciar o treinamento, todos os dados de entrada foram normalizados e no final de cada treinamento, com os pesos e vieses ajustados, as RNAs foram simuladas para gerar resultados. O processo de criação, treinamento e simulação da RNA, foi desenvolvido utilizando o software MATLAB

43 Apenas os 24 melhores, dos 120 resultados obtidos foram utilizados para análise. Para selecionar as melhores arquiteturas, foi avaliado o desempenho de generalização da RNA através de análises estatísticas entre os dados calculados e os observados para o período de teste. A arquitetura de RNA que apresentou melhor resultado em todos os parâmetros estatísticos, teve coeficiente de determinação de 0,95, coeficiente de eficiência de 0,94, e erro padrão de estimativa de 4,62, considerando-se o período de teste. Para esta arquitetura foram utilizados dez neurônios na camada intermediária e a função de transferência foi a log-sig; o resultado foi obtido em uma segunda inicialização. A Tabela 3 mostra a arquitetura que obteve melhor resultado para o período de teste. Tabela 3. Melhor arquitetura para o período de teste Arquitetura Treinamento Validação Teste R 2 E EPE R 2 E EPE R 2 E EPE RC310L2 0,67 0,66 9,56 0,97 0,94 4,23 0,95 0,94 4, O uso de Redes Neurais e Regressão Linear Múltipla na engenharia de avaliações: determinação dos valores venais de imóveis urbanos O objetivo deste trabalho é determinar o valor venal de imóveis urbanos utilizando RNAs e Regressão Linear Múltipla. Foram comparadas as técnicas de Redes Neurais Artificiais e Análise de Regressão Múltipla, analisadas as suas eficiências na determinação dos valores venais de imóveis edificados, e comparadas as duas técnicas entre si com a finalidade de avaliar a técnica mais eficiente para o problema em questão. Neste trabalho, a determinação do valor venal de imóveis urbanos é utilizada para fins de tributação como IPTU (Imposto Predial e Territorial Urbano) e ITBI (Imposto sobre Transmissão de Bens Imóveis) da cidade de Guarapuava/PR. Para tanto, foram utilizados os dados de Cadastro Imobiliário, fornecido pelo setor de Planejamento da Prefeitura Municipal de Guarapuava. As variáveis escolhidas foram: localização (bairro), setor, pavimentação, iluminação púbica, esgoto, área do terreno, pedologia, topografia, situação, área edificada, tipo, estrutura, conservação e valor venal. Foi utilizada uma técnica chamada de Análise das Componentes Principais, para reduzir o

44 número de variáveis de 13 para 9 e preservar o máximo de informação possível sobre as entradas. Neste estudo foram utilizados dados de 256 unidades. Modelo utilizando RNA Para modelar as RNAs foi utilizado o software Matlab 6.5 e foi utilizada a topologia MLP, com uma camada de entrada, consistindo de 9 nós, uma camada oculta, e uma camada de saída com um único neurônio que fornece o valor venal do imóvel. O número de neurônios na camada oculta variou de 0 a 12 neurônios. Foi empregada neste estudo, na camada oculta e na camada de saída, a função de ativação não-linear do tipo sigmoidal (logsig), que assume um intervalo contínuo de valores entre 0 e 1. Para o treinamento, foi utilizado o algoritmo de Levenberg Marquardt. Para a avaliação do desempenho da RNA, utilizou-se o erro quadrático médio (MSE mean squared error), que é a média do somatório dos quadrados dos erros de cada caso, tanto do conjunto de treinamento, quanto do conjunto de testes (BAPTISTELLA, 2005). A amostra foi dividida em dois grupos. O grupo de treinamento com 170 imóveis (66%) da amostra e o grupo para teste com 86 imóveis (34%), tomando-se o cuidado de manter a mesma proporção de valores dos imóveis nos dois conjuntos. A Tabela 4 mostra os melhores resultados das simulações. Tabela 4. Resultado das melhores simulações Rede Treinamento (rmse) Teste (rmse) 9E4N1N50 6,96% 12,50% 9E5N1N50 6,28% 10,40% 9E6N1N50 5,62% 12,09% 9E7N1N50 3,91% 13,94% 9E8N1N50 4,96% 11,13% 9E9N1N50 3,91% 13,81% 9E10N1N50 4,64% 12,88% 9E11N1N50 3,14% 12,23% 9E12N1N50 2,81% 15,81%

45 Modelo utilizando Análise de Regressão Múltipla O software utilizado para a construção do modelo de Análise de Regressão Múltipla e da tabela de dados foi o software Excel. Foi usado o software Statistica v.5 para fazer a validação dos resultados. Foram realizados três experimentos com Regressão Linear Múltipla. O primeiro modelo de Regressão Linear Múltipla foi ajustado utilizando a matriz obtida após a Análise de Componentes Principais. No ajuste do modelo, verificou-se que as variáveis setor, pedologia e topografia, não são significativamente importantes, por isso, estas variáveis também foram excluídas do modelo. Assim, as variáveis independentes do modelo são: localização, estrutura, serviços urbanos, característica, área edificada e situação. Verificou-se que as previsões geradas pelo modelo se aproximam dos valores reais. No segundo experimento foram utilizadas cinco variáveis independentes para a construção do modelo. Estas variáveis são: esgoto, localização, conservação, situação e topografia. Verificouse que as previsões geradas pelo modelo têm uma boa linearidade, indicando que este modelo também apresenta respostas próximas dos valores reais. No terceiro experimento, foi ajustado o modelo do primeiro experimento. Segundo Baptistella, 2005, após análise multivariada foi decidido eliminar as variáveis topografia, situação e bairro, por apresentarem valores-p > 0,05 e não serem significativamente importantes. Assim, a equação de Regressão Linear Múltipla ficou com três variáveis independentes: forma, área edificada e conservação. Este modelo também forneceu previsões próximas dos valores reais. A Tabela 5 mostra a matriz obtida após a análise multivariada dos dados. Tabela 5. Ajuste do modelo de regressão Parâmetro Coeficientes Erro padrão Estatística t Valor-p Interseção ,8 3524,733 30, , Forma 18920,1 3547,255 5, , Área edificada 46447,6 3547,255 13, , Topografia 2964,2 3547,255 0, , Situação -4881,5 3547,255-1, , Bairro -3006,9 3547,255-0, , Conservação 7832,8 3547,255 2, ,

46 Analisando-se os resultados dos erros e as variáveis para cada modelo, verifica-se que é possível melhorar os resultados obtidos, incluindo novas variáveis que tenham maior relevância e expliquem melhor a formação do valor venal de um imóvel (BAPTISTELLA, 2005). As duas técnicas tiveram desempenho satisfatório, porém, o modelo com RNA apresentou desempenho superior ao estatístico, na predição dos valores venais. Verificou-se que a RNA e a Regressão Linear Múltipla apresentaram melhores resultados quando se constrói o modelo com grupos homogêneos de itens para cada tipo de imóvel. Baptistella (2005), comenta que neste estudo não foi utilizada nenhuma técnica específica para esta finalidade, mas que, os métodos multivariados de agrupamentos poderiam ser muito úteis para este tipo de análise. 2.5 Ferramentas para criação de RNA Durante o desenvolvimento deste trabalho foram pesquisadas diversas ferramentas para a criação de RNAs, que serão apresentadas brevemente na sequência SNNS - Stuttgart Neural Network Simulator O SNNS (Stuttgart Neural Network Simulator) é um software para modelagem e simulação de RNAs que roda em ambientes Unix. O SNNS foi desenvolvido no Institute for Parallel and Distributed High Performance Systems (IPVR) na Universidade de Stuttgart. O SNNS consiste de dois componentes principais: O núcleo do simulador, escrito em C Interface gráfica do usuário sob X11R4 ou X11R5 O núcleo do simulador atua na rede interna de estruturas de dados da rede neural e realiza todas as operações de aprendizagem e memória. O SNNS pode ser estendido pelo usuário com a definição de funções de ativação, funções de saída, funções de peso e procedimentos de aprendizagem; que são escritas como programas em C simples e ligadas ao núcleo do simulador. O SNNS possui uma grande gama de algoritmos de aprendizado, muitos deles, variações do algoritmo Backpropagation. A Figura 16 mostra o ambiente de desenvolvimento do SNNS

47 Figura 16. Ambiente de desenvolvimento do SNNS. Fonte: (Zell et al., 2010) JavaNNS Java Neural Network Simulator Java Neural Network Simulator (JavaNNS) é um simulador para RNA desenvolvido no Wilhelm-Schickard-Institute for Computer Science (WSI) em Tübingen, Alemanha. O JavaNNS é baseado no núcleo do SNNS 4.2, com uma nova interface gráfica escrita em Java. O JavaNNS é mais intuitivo e fácil de usar e suas capacidades são similares ao do SNNS. Algumas características complexas do SNNS, mas não muito utilizadas, como visualização tridimensional de redes neurais, foram deixadas de fora ou adiada para uma versão posterior, todavia, algumas características novas, como o painel de log, foram introduzidas. Além da nova interface gráfica, uma grande vantagem do JavaNNS é o aumento de sua independência quanto a plataforma de utilização. O JavaNNS também funciona em computadores pessoais, desde que o Java Runtime Environment esteja instalado

48 O JavaNNS foi testado em Windows NT, Windows 2000, Windows XP, RedHat Linux 6.1, Solaris 7 e Mac OS X (ZELL et al. Apud SOUZA FILHO, 2009, p. 30). Durante a escrita deste trabalho, o JavaNNS também foi testado no Windows Vista e funcionou bem. O JavaNNS é gratuito mas não é de domínio público, pois o código-fonte não é aberto ao púbico. Pode-se distribuir livremente cópias do JavaNNS, mas é proibida a distribuição de cópias modificadas. Pode-se entretanto, distribuir modificações do JavaNNS como arquivos separados, juntamente com o JavaNNS inalterado. A Figura 17 mostra o ambiente de desenvolvimento do JavaNNS. Figura 17 Ambiente de desenvolvimento do JavaNNS Fonte: Fischer et al. (2002) SIMBRAIN O Simbrain é uma ferramenta gratuita para a construção, execução e análise de RNA. O Simbrain tem o objetivo de ser uma ferramenta o mais visual e intuitiva quanto possível

Exibir mais