Aplicação de Técnicas de Mineração de Dados em Problemas de Classificação de Padrões

Documentos relacionados

Inteligência Artificial. Prof. Tiago A. E. Ferreira Aula 20 - Backpropagation

FINANCEIRA. Reginaldo J. Santos. Universidade Federal de Minas Gerais Agosto de de abril de 2009

Neste pequeno artigo resolveremos o problema 2 da USAMO (USA Mathematical Olympiad) 2005: (x 3 + 1)(x 3 + y) = (x 3 + y)(1 + y) = z 9

MLP (Multi Layer Perceptron)

Revisão e Dicas de Projeto Conceitual Modelo ER

1. Introdução 2. OMCC e a Pesquisa Perfil-Opinião

Aprendizagem de Máquina

CAPÍTULO 3 - RETIFICAÇÃO

Colégio Politécnico da UFSM DPADP0024 : Processamento Digital de Imagens (Prof. Dr. Elódio Sebem)

DATA WAREHOUSE. Introdução

Modelagem Conceitual parte II

UNIVERSIDADE FEDERAL RURAL DE PERNAMBUCO DEPARTAMENTO DE FÍSICA E MATEMÁTICA

Projeto de Redes Neurais e MATLAB

a) a soma de dois números pares é par. b) a soma de dois números ímpares é par. c) a soma de um número par com um número ímpar é ímpar.

PALAVRAS-CHAVE: Massas Nodulares, Classificação de Padrões, Redes Multi- Layer Perceptron.

Exemplo de Aplicação do DataMinig

Modelo Fuzzy de tomada de decisão para avaliação de projetos de Responsabilidade Socioambiental (RSA)

ADM041 / EPR806 Sistemas de Informação

Atmosfera Padrão. Atmosfera Padrão

Fluxo de Potência em Redes de Distribuição Radiais

Complemento II Noções Introdutória em Redes Neurais

Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Sistema Gerenciador de Banco de Dados

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos

Dadas a base e a altura de um triangulo, determinar sua área.

COMPARAÇÃO DO DESEMPENHO ACADÊMICO DOS INGRESSANTES EM GEOGRAFIA PELO VESTIBULAR E PELO PAIES

P(seleção de um elemento baixo) = p P(seleção de um elemento médio) = p. P(seleção de um elemento alto) = p

O ESPAÇO NULO DE A: RESOLVENDO AX = 0 3.2

Figura 5.1.Modelo não linear de um neurônio j da camada k+1. Fonte: HAYKIN, 2001

Probabilidade parte 2. Robério Satyro

Uma análise aplicada de decisão com opção de venda utilizando cadeias de Markov

Redes Neurais. Profa. Flavia Cristina Bernardini

Protocolo em Rampa Manual de Referência Rápida

Conteúdo. Disciplina: INF Engenharia de Software. Monalessa Perini Barcellos

1. ENTALPIA. (a) A definição de entalpia. A entalpia, H, é definida como:

GARANTIA DA QUALIDADE DE SOFTWARE

Do neurônio biológico ao neurônio das redes neurais artificiais

PROVA DE FÍSICA 2º ANO - ACUMULATIVA - 2º TRIMESTRE TIPO A

APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA

Disciplina de Banco de Dados Introdução

O Que São Dados? Mundo sensorial: Provar um alimento Medir: aroma Instrumento de medição: provadores Medida: ruim, regular bom excelente

Nota Técnica 113/2007 SRD/SRE/ANEEL Metodologia para Projeção de Investimentos para o Cálculo do Fator X Contribuição da Audiência Publica 052/2007

Pesquisa com Professores de Escolas e com Alunos da Graduação em Matemática

A Grande Importância da Mineração de Dados nas Organizações

Inteligência Artificial. Redes Neurais Artificiais

Verificação e validação do coeficiente de arrasto frontal para escoamento supersônico e hipersônico de ar sobre cones

Banco de Dados I. Apresentação (mini-currículo) Conceitos. Disciplina Banco de Dados. Cont... Cont... Edson Thizon

ENGENHARIA DE SOFTWARE I

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

UNIVERSIDADE FEDERAL DO PARANÁ UFPR Bacharelado em Ciência da Computação

Orientação a Objetos

GABARITO. Física B 07) 56 08) A 09) E. Nas lentes divergentes as imagens serão sempre virtuais. 10) A

MODELAGEM DE DADOS MODELAGEM DE DADOS. rafaeldiasribeiro.com.br 04/08/2012. Aula 7. Prof. Rafael Dias Ribeiro.

O QUE É E COMO FUNCIONA O CREDIT SCORING PARTE I

Especificação do 3º Trabalho

Na medida em que se cria um produto, o sistema de software, que será usado e mantido, nos aproximamos da engenharia.

Extração de Requisitos

Segunda aula de mecânica dos fluidos básica. Estática dos Fluidos capítulo 2 do livro do professor Franco Brunetti

DATA WAREHOUSE NO APOIO À TOMADA DE DECISÕES

Podemos encontrar uma figura interessante no PMBOK (Capítulo 7) sobre a necessidade de organizarmos o fluxo de caixa em um projeto.

Modelos Pioneiros de Aprendizado

Administração de dados - Conceitos, técnicas, ferramentas e aplicações de Data Mining para gerar conhecimento a partir de bases de dados

O USO DE REDES NEURAIS ARTIFICIAIS NO DIAGNÓSTICO PREDITIVO DOS TIPOS MAIS FREQÜENTES DE CEFALÉIA

MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO

SUMÁRIO Acesso ao sistema... 2 Atendente... 3

a 1 x a n x n = b,

Tabela de Símbolos. Análise Semântica A Tabela de Símbolos. Principais Operações. Estrutura da Tabela de Símbolos. Declarações 11/6/2008

Este trabalho tem como objetivo propor um modelo multicritério para a priorização dos modos de falha indicados a partir de uma aplicação do processo

4 Avaliação Econômica

IW10. Rev.: 02. Especificações Técnicas

Engenharia de Software

XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO

6 Construção de Cenários

Módulo 4: Gerenciamento de Dados

Extração de Conhecimento & Mineração de Dados

Aula 4 Estatística Conceitos básicos

ESTUDO DE VIABILIDADE. Santander, Victor - Unioeste Aula de Luiz Eduardo Guarino de Vasconcelos

2. Representação Numérica

MRP II. Planejamento e Controle da Produção 3 professor Muris Lage Junior

SUMÁRIO 1. AULA 6 ENDEREÇAMENTO IP:... 2

CAPITULO VI. LIMITES E CONTINUIDADE DE FUNÇÕES EM R n

3 Metodologia de Previsão de Padrões de Falha

A importância da comunicação em projetos de

10 DICAS DE TECNOLOGIA PARA AUMENTAR SUA PRODUTIVIDADE NO TRABALHO

Manual SAGe Versão 1.2 (a partir da versão )

Elasticidade - Demanda e Preço

CONTROLE DE QUALIDADE e VALIDAÇÃO DE PRODUTO CARTOGRÁFICO

No mundo atual, globalizado e competitivo, as organizações têm buscado cada vez mais, meios de se destacar no mercado. Uma estratégia para o

Módulo 4. Construindo uma solução OLAP

O propósito deste trabalho foi o de apresentar os programas de. catalogação cooperativa, centralizada e catalogação-na-publicação, os quais,

APLICAÇÕES DO CONTROLE ESTATÍSTICO MULTIVARIADO DA QUALIDADE: MONITORAMENTO DE GARRAFEIRAS PLÁSTICAS NUMA EMPRESA DO ESTADO DA PARAÍBA

UM CONCEITO FUNDAMENTAL: PATRIMÔNIO LÍQUIDO FINANCEIRO. Prof. Alvaro Guimarães de Oliveira Rio, 07/09/2014.

ATIVIDADES PRÁTICAS SUPERVISIONADAS

24 O uso dos manuais de Matemática pelos alunos de 9.º ano

Cálculo Numérico Aula 1: Computação numérica. Tipos de Erros. Aritmética de ponto flutuante

5 Conclusões e Recomendações

INF 1771 Inteligência Artificial

Transcrição:

Laboratório de Comutação Evolucionária Deartamento de Engenharia Elétrica UFMG Av. Pres. Antônio Carlos, 6627 CEP 31.270 010 Fone: 5531 3409 34 26 5531 3409 4826 Alicação de Técnicas de Mineração de Dados em Problemas de Classificação de Padrões Luciana Gomes Castanheira Dissertação submetida ao Programa de Pós- Graduação em Engenharia Elétrica da UFMG como requisito arcial ara obtenção do grau de Mestre em Engenharia Elétrica. Orientador: Prof. Dr. João Antônio de Vasconcelos UFMG Belo Horizonte 09 / 2008

Agradecimentos Aos meus ais, elo estudo que me roorcionaram nesta ornada até aqui e elo exemlo de vida. Ao David e minhas irmãs, ela comreensão e incentivo todos os dias. Ao meu Professor orientador, João Antônio de Vasconcelos, elos ensinamentos, atenção e aciência que foram essenciais ao desenvolvimento deste trabalho. A todas às essoas que de alguma forma fizeram este sonho se tornar uma realidade.

Resumo O rocesso de descoberta de conhecimento em bases de dados Knowledge Discovery in Databases KDD, incluindo a fase de mineração de dados, vem sendo amlamente utilizado como ferramenta ara auxiliar na tomada de decisão em áreas como crédito bancário e redições médicas. Neste trabalho este rocesso de KDD é estudado tendo como obetivo avaliar a utilização de métodos de mineração de dados alicados em áreas da engenharia elétrica, sendo a abordagem feita sobre uma base de dados oriunda de testes de cromatografia de transformadores de otência. A mineração de dados é alicada ara obter uma classificação de tios de defeitos dos transformadores. As técnicas abordadas no trabalho são redes neurais e árvores de decisão. As estruturas de algoritmos escolhidas nestas técnicas foram, resectivamente, a rede MLP com treinamento através do algoritmo de retroroagação resiliente, simulada no MatLab, e a árvore gerada elo algoritmo J4.8, simulada no alicativo weka. O caítulo 2 traz um estudo sobre o rocesso de KDD, com as fases de todo o rocesso e suas resectivas atividades. No caítulo 3 é aresentada a fase de mineração de dados, realçando suas diversas alicações. Nos caítulos 4 e 5 são feitos estudos das técnicas e seus resectivos algoritmos. Em seguida são aresentadas duas bases de dados consideradas benchmark ara a validação do estudo e finalmente os algoritmos são alicados à base de dados da cromatografia. Nos caítulos 7 e 8 são aresentados os resultados e as conclusões do trabalho, onde é visto que o rocesso de mineração de dados ode ser alicado em roblemas na área da engenharia elétrica, orém devem ser feitos estudos sobre o domínio de cada base de dados a ser tratada. Palavras Chave: Redes Neurais, Árvores de Decisão, Mineração de Dados, KDD, Tomada de Decisão.

Abstract The Knowledge Discovery in Databases KDD rocess, which includes the data mining hase, has been widely used as a tool to assist decision-making in areas such as banking credit and medical redictions. In this work this rocess is studied with the obective of evaluating the use of data mining methods in areas of electrical engineering, considering data obtained from chromatograhy tests of ower transformers. The data mining is alied for a classification of the tyes of transformers s defects. The techniques that were studied in this work are neural networks and decision trees. The algorithms chosen in these techniques are, resectively, MLP s network with resilient backroagation algorithm for the training, simulated in Matlab, and the tree generated by the J4.8 algorithm, simulated in Weka. Chater 2 resents a study about the KDD s rocess, with the hases of the whole rocess and their activities. In Chater 3 is given the data mining hases, highlighting its various alications. In Chaters 4 and 5 the studies of the techniques and your algorithms are resented. Then are given two databases considered benchmark for the study validation and finally the algorithms are alied in the database of chromatograhy. In the following sections the results and conclusions are resented, where it is seen that the data mining can be alied to roblems in the electrical engineering area, but must be made studies on the area of each database to be treated. Key-Words: Neural Networks, Decision Tree, Data Mining, KDD, Decision Making.

Lista de Figuras Figura 2.1: Fases de um rocesso de descoberta de conhecimento em bases de dados. 12 Figura 4.1: Reresentação do rocesso de arendizado suervisionado. 26 Figura 4.2: Um modelo neural ilustrando 28 Figura 4.3: Modelo de neurônio artificial ercetron utilizado nas redes MLPs. 30 Figura 4.4: Configuração de uma rede MLP com uma camada de neurônios ocultos e um neurônio na camada de saída. 34 Figura 5.1: Exemlo de uma árvore de decisão. 44 Figura 5.2: Algoritmo ID3. 49 Figura 5.3: Árvore arcial gerada. 58 Figura 5.4: Árvore gerada. 59 Figura 6.1 - Matriz instância x atributo, ara o exemlo dos transformadores. 68 Figura 6.2 - Matriz classe, ara o exemlo dos transformadores. 68 Figura 6.3 - Arquivo no formato ARFF contendo exemlos dos transformadores. 71 Figura 7.1: Árvore de Decisão gerada elo algoritmo J4.8, ara a terceira análise. 82 Figura 7.2: Distribuição das concentrações de gases com diagnóstico normal Base 2. 83 Figura 7.3: Distribuição das concentrações de gases com falha elétrica Base 2. 83 Figura 7.4: Distribuição das concentrações de gases com falha térmica Base 2. 84 Figura 7.5: Distribuição geral das concentrações dos gases segundo os diagnósticos normal, falha elétrica e falha térmica Base 2. 84

Índice 1 Introdução... 5 1.1 Obetivos... 6 1.2 Estado da Arte... 6 1.3 Motivação... 9 1.4 Limitações do Trabalho... 10 2 Descoberta de conhecimento em bases de dados... 11 2.1 Introdução... 11 2.2 Descoberta de conhecimento em bases de dados... 11 2.3 Fases da descoberta de conhecimento em bases de dados KDD... 13 2.3.1 Seleção dos dados... 13 2.3.2 Pré-rocessamento dos dados e limeza... 13 2.3.3 Transformação dos dados... 16 2.3.4 Mineração de dados... 16 2.3.5 Avaliação e interretação de resultados... 17 2.4 Conclusão... 17 3 Mineração de Dados... 18 3.1 Introdução... 18 3.2 Mineração de Dados... 18 3.3 Princiais tarefas de mineração de dados... 20 3.3.1 Classificação... 20 3.3.2 Regressão... 20 3.3.3 Regras de associação... 21 3.3.4 Agruamento... 21 3.3.5 Estimativa... 22 3.3.6 Desvio... 22 3.4 Conclusão... 23 4 Redes Neurais... 24 4.1 Introdução... 24 4.2 Redes neurais... 24 4.3 Alguns conceitos utilizados... 25

4.3.1 Arendizado suervisionado... 25 4.3.2 Método do gradiente... 28 4.4 Evolução das redes neurais... 29 4.5 Redes ercetron de múltilas camadas MLP... 30 4.6 Algoritmos de retroroagação e retroroagação resiliente... 31 4.7 Algoritmo de retroroagação alicado à rede MLP... 33 4.7.1 Processamento no sentido direto do algoritmo de retroroagação... 35 4.7.2 Processamento no sentido inverso do algoritmo de retroroagação... 35 4.8 Algoritmo de retroroagação resiliente alicado à rede MLP... 38 4.9 Conclusão... 42 5 Árvores de Decisão... 43 5.1 Introdução... 43 5.2 Árvores de Decisão... 43 5.3 Conceitos utilizados em árvores de decisão... 46 5.3.1 Entroia... 46 5.3.2 Ganho de Informação... 47 5.4 Contribuições de J. Ross Quinlan... 48 5.5 Algoritmo J4.8... 50 5.5.1 Razão do Ganho RG e Informação Dividida ID... 51 5.6 Alicando o Algoritmo J4.8... 52 5.6.1 Construção de uma árvore... 52 5.7 Poda em Árvores de Decisão... 60 5.8 Conclusão... 61 6 Base de Dados, Pré-Processamento e Metodologia... 63 6.1 Introdução... 63 6.2 Heatite... 63 6.3 DNA... 64 6.4 Transformadores... 66 6.5 Softwares utilizados... 67 6.5.1 Redes neurais... 67 6.5.2 Árvores de Decisão... 69

6.6 Conclusão... 72 7 Resultados... 73 7.1 Introdução... 73 7.2 Comarativo entre resultados existentes e os simulados heatite e DNA... 73 7.3 Resultados ara os transformadores... 75 7.4 Conclusões... 84 8 Conclusões... 86 8.1 Trabalhos Futuros... 88 Referências Bibliográficas... 89

1 Introdução Durante os últimos anos tem se verificado um crescimento substancial da quantidade de dados armazenados em meios magnéticos. Segundo FAYYAD et al. [12], estes dados, roduzidos e armazenados em larga escala, são inviáveis de serem lidos ou analisados or esecialistas através de métodos tradicionais tais como lanilhas de dados e relatórios informativos oeracionais, onde o esecialista testa sua hiótese contra a base de dados. Ou sea, as informações contidas nos dados não estão caracterizadas exlicitamente, uma vez que sendo dados oeracionais não interessam quando estudados individualmente. Logo, não bastava armazená-los, era reciso transformá-los em informações. Estas informações tornaram-se essenciais ara as emresas, á que as bases de dados deixaram de ser aenas reositórios de informações, assando a ser tratadas como atrimônio das mesmas. O dado é um elemento uro, quantificável sobre um determinado evento. A informação é o dado analisado e contextualizado. Envolve a interretação de um conunto de dados, ou sea, a informação é constituída or adrões, associações ou relações que todos aqueles dados acumulados odem roorcionar. A informação ode gerar conhecimento que auda na análise de adrões históricos ara se conseguir uma revisão dos fatos futuros elo menos no contexto das variáveis que estão sendo envolvidas na análise. O rocesso caaz de descobrir conhecimento informação em bancos de dados chama-se Knowledge Discovery in Databases - KDD. Ainda segundo FAYYAD et al. [12], este rocesso foi roosto em 1989 ara referir-se às etaas que roduzem conhecimento a artir dos dados. Dentro deste rocesso a etaa de mineração de dados é a fase que transforma dados em informação. Como o maior equiamento em sistemas de otência, o transformador de otência é vital ara a oeração dos sistemas e as técnicas ara diagnóstico e detecção inciiente de falhas são valiosas ara melhorar a manutenção. A análise de gás dissolvido no óleo do

transformador é uma ferramenta oderosa. Neste trabalho será utilizada esta análise, baseada na esquisa de DUVAL [11], onde é roosto um método ara identificação da falha baseado nos teores de formação dos gases etileno C 2 H 4, metano CH 4, acetileno C 2 H 2, hidrogênio H 2 e etano C 2 H 6. 1.1 Obetivos O obetivo da mineração de dados é extrair informações, imlicitamente contidas nos banco de dados. O obetivo rincial deste trabalho é estudar, comreender e utilizar ferramentas de mineração de dados, eficientes ara extração do conhecimento imlícito, em auxílio à tomada de decisões em áreas da engenharia elétrica. Os obetivos esecíficos são comreender, analisar e comarar as técnicas de redes neurais e árvores de decisão, alicadas a roblemas de mineração de dados oriundos de testes de cromatografia de transformadores de otência. 1.2 Estado da Arte Neste item é feita uma revisão bibliográfica, com um breve relato de outros trabalhos desenvolvidos com a utilização de diferentes técnicas em mineração de dados. BALA et al. [6] ublicaram um trabalho onde estudam uma forma de arendizado híbrido, usando algoritmo genético e árvores de decisão ara classificação. A idéia foi a integração do algoritmo AG GENESIS, com oulação constante e taxas de cruzamento e mutação resectivamente iguais a 0,6 e 0,001, com o algoritmo C4.5 ara o rocedimento de evolução. Os resultados exerimentais foram aresentados ara ilustrar a eficácia da esquisa em roblemas comlexos. Foram estudadas duas bases de dados. Uma delas comosta de dados ara reconhecimento de imagens faciais, aresentando erro de 27,5%, e a outra de reconhecimento visual de satélite, aresentando erro de 6,97%. Os resultados

mostram bons desemenhos de classificação quando comarados com métodos clássicos ara classificação que aresentaram erros de 38,4% e 18,5% resectivamente. LU et al. [24] ublicaram um trabalho onde abordaram a alicação de redes neurais ara classificação em mineração de dados, dando ênfase às regras de extração. A base de dados trabalhada era comosta de características de essoas que seriam classificadas em gruos, tais como: idade, salário e ossuir casa rória. Neste trabalho foi roosta a rede neural MLP rede de múltilas camadas comostas or neurônios do tio ercetron com algoritmo de retroroagação ara o arendizado. Os resultados mostraram um erro menor utilizando estas redes quando comarados ao algoritmo C4.5 de árvore de decisão. Porém, a rede neural recisou de um temo maior de arendizado. ALMEIDA e DUMONTIER [3] ublicaram um trabalho no qual aresentam uma abordagem estruturada da exloração de redes neurais, utilizando a rede MLP, com algoritmo de arendizado de retroroagação. O método foi utilizado ara avaliação de riscos de inadimlência, avaliando 2412 emresas do setor de transorte de carga rodoviário francês. O desemenho foi comarado com o método da regressão logística LOGIT. Foi concluído que o desemenho da rede neural imlementada não foi significativamente suerior ao desemenho do método estatístico, orém ossui uma maior caacidade de generalização. FAYYAD et al. [12] ublicaram o trabalho From Data Mining to Knowledge Discovery in Databases no qual descrevem como são relacionadas a mineração de dados e o KDD em um banco de dados, como em seus camos relacionados estatística e arendizagem de máquina. Neste trabalho é conceituado que KDD é todo o rocesso de descoberta de conhecimento e a mineração de dados refere-se a aenas uma fase deste rocesso. No trabalho são relatadas técnicas esecíficas ara mineração de dados tais como árvore de decisão, regressão não linear e modelos de arendizagem relacional. É discutido que não existe um método mais eficiente que sirva ara todas as alicações. A escolha do método vai variar de acordo com o obetivo da mineração de dados. ALMEIDA e SIQUEIRA em [4] fazem uma comaração entre regressão logística, com o algoritmo LOGIT e redes neurais, alicando o algoritmo de retroroagação em uma rede

MLP. As técnicas foram alicadas a uma base de dados balanceada de 54 bancos brasileiros ara a avaliação do risco de insolvência. A técnica de rede neural não aresentou resultado muito suerior ao obtido ela regressão logística, mas aresentou um fator diferencial que foi o de oder considerar a base de dados com camos vazios. A regressão logística necessita da base de dados com todos os camos não vazios. ZHANG et al. [44] ublicaram um trabalho roondo uma rede neural artificial ara diagnóstico e detecção de falha em transformadores, considerando as concentrações de gases no óleo do transformador. Os dados são classificados de acordo com quatro diagnósticos. A rede neural utilizada foi a ercetron de múltilas camadas MLP com o arendizado feito elo algoritmo de retroroagação. As simulações foram feitas variando os arâmetros de entrada, o número de camadas escondidas e o número de nós na saída. A validação foi realizada com a técnica de validação cruzada. Os autores chegaram à conclusão de que quanto mais comlexa a relação mais dados de treinamento são necessários e que aumentando a quantidade destes dados a recisão do modelo ode ser melhorada. WANG et al. [41] ublicaram um trabalho ara diagnóstico de falhas em transformadores. Foi roosta uma classificação dos estados dos transformadores baseado em três formas: em sistemas esecialistas, em redes neurais e em redes neurais conugada com sistemas esecialistas, chamadas elos autores de redes neurais esecialistas. As simulações foram feitas com uma base de 210 dados. A rede neural utilizada foi a ercetron de múltilas camadas MLP com o algoritmo de retroroagação ara o treinamento. Os resultados do trabalho mostram que o sistema conugado tem melhor erformance quando comarado com os resultados da classificação feita or cada sistema searadamente. BRAMEIER e BANZHAF [9] ublicaram um trabalho onde aresentam uma comaração entre rogramação genética linear e a técnica de redes neurais, utilizando a rede MLP com o algoritmo de retroroagação resiliente ara arendizado, ara mineração de dados médicos. O desemenho dos dois métodos foi comatível, sendo a rogramação genética linear considerada satisfatória na classificação e generalização dos dados.

BOSIGNOLI e INFANTOSI em [8] estabelecem uma classificação automática do estado de sono ativo neonatal utilizando uma base de dados oriunda de exames feitos em recém nascidos. A técnica utilizada ara esta classificação foi a de redes neurais, com uma rede MLP alicando o algoritmo de retroroagação ara o arendizado, utilizando a função de ativação tangente hierbólica. A classificação resultou em 95% de classificação correta. LEMOS [23] aresentou um trabalho no qual fez uma análise de crédito bancário com o uso de mineração de dados, utilizando técnicas de redes neurais e árvores de decisão. Em redes neurais foi alicada uma rede MLP, com o algoritmo de arendizado sendo o de retroroagação e em árvores de decisão foi utilizado o algoritmo J4.8. O obetivo do trabalho era auxiliar na tomada de decisão sobre conceder ou não crédito bancário a um novo cliente. A base de dados foi cedida or uma agência bancária comosta de 339 clientes de micro e equenas emresas, sendo 266 adimlentes e 73 inadimlentes. Os resultados foram considerados satisfatórios, aresentando um erro no conunto de validação de 28,13% ara árvores de decisão e 9,96% ara redes neurais. Já no conunto de treinamento os erros foram de 11,49% e 4,09%, resectivamente. 1.3 Motivação Diante das diversas alicações da classificação na mineração de dados foi roosta uma forma de utilizá-las ara auxiliar em áreas da engenharia elétrica. A escolha do uso de mineração de dados ara auxiliar na tomada de decisão, através da tarefa de classificação, utilizando as técnicas que envolvem redes neurais e árvores de decisão, deve-se a algumas vantagens que a mineração de dados nos roorciona, dentre elas as rinciais levam em consideração o fato de serem de fácil comreensão e das variáveis envolvidas oderem ser usadas na forma original como aarecem nas bases de dados, não necessitando de uma normalização. O fato dos modelos obtidos com a técnica de árvores de decisão serem de fácil comreensão ossibilita às essoas sem conhecimento estatístico de interretar tais modelos.

A utilização das técnicas de redes neurais com a rede MLP e algoritmo de retroroagação resiliente, e de árvores de decisão, com o algoritmo J4.8, estão embasadas nos bons resultados que vêm aresentando em trabalhos anteriores. A alicação dos métodos ara elaboração de classificadores de falhas baseadas em concentrações de gases no óleo dos transformadores teve uma motivação no fato do roblema não ossuir uma função matemática que descreva o comortamento da taxa de evolução destas concentrações em função das falhas. Assim é ustificado o uso de dados históricos alicados em métodos heurísticos como redes neurais e árvores de decisão. Além disso, os métodos de monitoramento em temo real dos transformadores, que fornecem as concentrações dos gases, estão cada vez mais confiáveis. 1.4 Limitações do Trabalho O trabalho tem algumas limitações inerentes à situação. As mais claras são as atividades de ré-rocessamento que exigem a articiação de esecialistas do domínio de alicação das bases de dados. Estas atividades foram escolhidas, então, de forma a não recisarem deste requisito, ou sea, foram realizados os ré-rocessamentos que não deendiam do domínio de alicação das bases de dados. Os trabalhos âncoras ara o desenvolvimento da esquisa foram muitos, destacando-se os das referências BRAMEIER e BANZHAF [9], LEMOS [23] e LU et al. [24].

2 Descoberta de conhecimento em bases de dados 2.1 Introdução Neste caítulo é estudado o rocesso de descoberta de conhecimento em bases de dados KDD. O estudo é feito desde o conceito até cada uma de suas fases. Na fase de rérocessamento e limeza dos dados são abordadas formas de serem realizadas tais tarefas, chamando atenção às conseqüências de serem executadas sem a resença de um esecialista no domínio dos dados. 2.2 Descoberta de conhecimento em bases de dados KDD é um rocesso de descoberta de conhecimento em bases de dados que tem como obetivo rincial extrair conhecimento a artir de grandes bases de dados. Para isto ele envolve diversas áreas do conhecimento, tais como: estatística, matemática, bancos de dados, inteligência artificial, visualização de dados e reconhecimento de adrões. São utilizadas técnicas, em seus diversos algoritmos, oriundas dessas áreas. O rocesso de KDD é um conunto de atividades contínuas que comartilham o conhecimento descoberto a artir de bases de dados. Para iniciar um rocesso de KDD é reciso ter o entendimento do domínio da alicação e dos obetivos finais a serem atingidos. Para tal tem-se três essoas envolvidas no rocesso de KDD, que são elas: analista de Dados: resonsável elos algoritmos e ferramentas utilizadas no rocesso. Entende das técnicas envolvidas no rocesso de KDD, mas não necessariamente conhece o domínio ao qual os dados ertencem. esecialista no Domínio: conhece o domínio ao qual os dados ertencem e onde são alicados.

usuário: quem vai utilizar o resultado do rocesso. Esta arte essoa ou emresa deve semre fazer arte da equie envolvida em um roeto de KDD. Segundo FAYYAD et al. em [12], esse conunto é comosto basicamente or 5 cinco etaas, relacionadas na Figura 2.1. Figura 2.1: Fases de um rocesso de descoberta de conhecimento em bases de dados. Fonte: FAYYAD et al. [12] Seguindo a Figura 2.1, iniciando um rocesso de KDD, a rimeira etaa é um agruamento de forma organizada dos dados seleção. A etaa da limeza dos dados vem a seguir, através de um ré-rocessamento dos dados, visando adequá-los aos algoritmos que serão utilizados. Para facilitar o uso das técnicas de mineração de dados, os dados ainda odem assar or uma transformação que os armazena adequadamente em arquivos ara serem lidos elos algoritmos. É a artir deste momento que se chega à fase de mineração de dados esecificamente, que começa com a escolha das ferramentas algoritmos a serem utilizadas. Essa escolha deende fundamentalmente do obetivo do rocesso de KDD: classificação, agruamento, regras associativas, ou desvio. De acordo com o algoritmo utilizado será gerado um arquivo de descobertas que ode ser um relatório ou um gráfico, or exemlo. Este arquivo deve ser interretado, gerando as conclusões que fornecem o conhecimento da base de dados estudada.

2.3 Fases da descoberta de conhecimento em bases de dados KDD 2.3.1 Seleção dos dados De acordo com ALMEIDA e DUMONTIER [3], a tarefa de seleção dos dados é crítica orque os dados odem não estar disoníveis em um formato aroriado ara serem utilizados no rocesso de KDD. Ou, mesmo se disoníveis, os dados odem recisar ser rotulados com o auxílio de um esecialista do domínio. Um dos rinciais roblemas em coletar dados é descobrir onde encontrá-los. A maioria dos sistemas de gerenciamento de dados que estão funcionando hoe são rorietários, mas existe uma tendência mais forte das emresas imlementarem novos bancos de dados, que são direcionados ara dar suorte às essoas resonsáveis or tomar decisões chamados de reositórios de dados. O obetivo do reositório de dados é integrá-los, de diversos sistemas transacionais, da forma mais confiável ossível, audando na seleção dos dados. 2.3.2 Pré-rocessamento dos dados e limeza De acordo com MANNILA [25], a fase de ré-rocessamento é a mais comlexa, odendo tomar até 80% de todo o temo do rocesso e recisa ser feita com esecialistas que conhecem bem o domínio de alicação dos dados, á que suas atividades são, or exemlo, a integração de dados heterogêneos e a eliminação de incomletude dos dados. Além disso, odem aarecer roblemas que são esecíficos ara cada alicação e que, dessa forma, recisam ser resolvidos com soluções esecíficas. A limeza dos dados envolve uma verificação da consistência das informações, e o reenchimento ou a eliminação de valores nulos e redundantes. Nessa fase são identificados e removidos os dados dulicados e/ou corromidos. Uma boa limeza dos dados é

essencial, odendo inclusive diminuir o temo de rocessamento, eliminando consultas desnecessárias à base de dados. A limeza dos dados é deendente do domínio da alicação, tornando a articiação do analista de dados essencial também nessa fase. As atividades do ré-rocessamento e limeza dos dados odem ser dividas em dois gruos. Um gruo é comosto or atividades que só devem ser executadas or esecialistas no domínio dos dados atividades muito deendentes de conhecimento do domínio, e o outro gruo é comosto elas atividades que são indeendentes do domínio dos dados, odendo ser executadas or qualquer essoa. 2.3.2.1 Atividades de Pré-Processamento muito deendentes de conhecimento do domínio Estas atividades só são efetivamente realizadas com o uso de conhecimento esecífico do domínio. Até oderiam ser realizadas através de um método automático, desde que ara criá-lo sea fornecido conhecimento esecífico do domínio. São exemlos de dificuldades encontradas no ré-rocessamento, que são fortemente deendentes de conhecimento do domínio: 2.3.2.1.1 Inconsistências Este erro é muito freqüente quando um atributo assume diferentes valores, mas que reresentam na essência a mesma informação. Por exemlo, um atributo nome, que armazena nomes de instituições, assume os valores UFMG e Universidade Federal de Minas Gerais, que são vistos elo rograma como diferentes mas reresentam a mesma coisa.

2.3.2.1.2 Poluição A oluição ou ruído são os dados distorcidos, que foram muitas vezes imrovisados. Uma oluição muito freqüente acontece quando o sistema é desenvolvido ara uma esecificação e assa a ser usado ara outra. Por exemlo, uma emresa de cartão de crédito que originalmente só cadastrava clientes essoa física, ossui em seu banco de dados um camo sexo. Neste camo deveria aarecer o F feminino ou M Masculino, entretanto, alguns registros assumem o valor E ara esse atributo, que corresonde a uma emresa. 2.3.2.1.3 Atributos dulicados e redundantes Ocorre quando uma informação essencialmente idêntica é armazenada em diversos atributos. Um exemlo é ossuir atributos em uma mesma Tabela tais como reço or unidade, quantidade comrada e reço total. O maior dano causado or este tio de erro é uma leitura desnecessária de dados, aumentando o temo de rocessamento. 2.3.2.2 Atividades de Pré-Processamento que não deendem de conhecimento de domínio Estas atividades são aquelas que utilizam métodos que retiram dos rórios dados as informações necessárias ara tratar o roblema. Alguns exemlos: 2.3.2.2.1 Valores em branco Um método muito utilizado ara resolver este roblema é a substituição dos valores desconhecidos ela média ou moda do atributo corresondente. Outra oção é usar um algoritmo de arendizado ara substituir o vazio or um valor redito, mas neste caso recisa da articiação de um esecialista no domínio.

2.3.2.2.2 Dados com classes desbalanceadas Quando em uma base de dados uma classe aarece em maior quantidade que outra, esta base é dita desbalanceada. Em KUBAT e MATWIN [22] foi utilizado o método de seleção unilateral ara balancear um conunto de dados contendo informações colhidas de fotos de satélites. Uma forma mais direta é a relicação dos dados em menor número. 2.3.3 Transformação dos dados Esta fase é realizada deendendo do algoritmo que será alicado na mineração de dados, ois é o algoritmo que ossui as limitações que recisam ser imostas à base de dados. Algumas das transformações: normalização de atributos quantitativos e transformação de atributos qualitativos em quantitativos. De acordo com o trabalho de BATISTA [7], quando a base de dados for constituída de dados qualitativos, ara alicá-la em redes neurais é aconselhável criar um nó ara cada atributo, sendo estes dados desmembrados em n atributos binários, ara n valores diferentes na base qualitativa. Em resumo essa fase converte os dados ara a forma mais adequada à construção e interretação do modelo. 2.3.4 Mineração de dados A mineração de dados é a etaa mais imortante do rocesso de KDD. Segundo POSSA et al. [30], o cérebro humano, comrovadamente, consegue fazer até 8 oito comarações ao mesmo temo. A função da mineração de dados é ustamente amliar esta comaração ara "infinito" e tornar isso visível ao olho humano. Aqui não será dada ênfase a esta fase, sendo tratada esecificamente no róximo caítulo.

2.3.5 Avaliação e interretação de resultados Os resultados do rocesso de descoberta do conhecimento odem ser mostrados de diversas formas. Esta fase envolve todos os articiantes que avaliam de forma criteriosa os resultados roorcionando uma interretação ara o modelo, de onde se extrai o conhecimento. 2.4 Conclusão Pode-se concluir que a descoberta de conhecimento em bases de dados é um rocesso comlexo, comosto or diversas etaas. Deve ser seguido um critério ara realização de cada uma destas etaas, levando em consideração a necessidade ou não da articiação de um esecialista no domínio da base de dados. Se não for ossível a articiação dos esecialistas, devem ser feitas as transformações que não deendem do conhecimento do domínio, ara não correr o risco de ocorrer uma distorção da base de dados, modificando o relatório gerado elo algoritmo de mineração de dados.

3 Mineração de Dados 3.1 Introdução Neste caítulo são fornecidos conceitos da etaa de mineração de dados dentro do rocesso de descoberta de conhecimento em bases de dados. São relatadas as tarefas mais usadas em mineração de dados, citando alicações e características. 3.2 Mineração de Dados São muitas as definições de mineração de dados encontradas na literatura, algumas delas: "Mineração de dados é uma ferramenta utilizada ara descobrir novas correlações, adrões e tendências entre as informações de uma emresa, através da análise de grandes quantidades de dados armazenados em Data Warehouse usando técnicas de reconhecimento de adrões, estatística e matemática", NIMER e SPANDRI [28]. "Mineração de dados é um rocesso que encontra relações e modelos dentro de um grande volume de dados armazenados em um banco de dados", RODRIGUES [33]. "Mineração de dados é uma técnica ara determinar adrões de comortamento, em grandes bases de dados, auxiliando na tomada de decisão", SILVA [37]. "Mineração de dados é um conunto de técnicas que envolvem métodos matemáticos, algoritmos e heurísticas ara descobrir adrões e regularidades em grandes conuntos de dados, POSSA et al. [30]. "Mineração de dados é a extração de informações otencialmente úteis e reviamente desconhecidas de grandes bancos de dados, serve ara descobrir erfis de consumidores e outros comortamentos que não seriam identificados nem or esecialistas", GUIZZO [13].

Extração de conhecimento de base de dados mineração de dados é o rocesso de identificação de adrões válidos, novos, otencialmente úteis e comreensíveis embutidos nos dados, FAYYAD et al. [12]. Resumindo, ode-se concluir que a mineração de dados caracteriza-se ela existência de um algoritmo que diante da tarefa roosta será eficiente em extrair conhecimento imlícito e útil de um banco de dados. Pode-se dizer que mineração de dados é a fase que transforma dados uros em informações úteis. Na fase de mineração de dados, dentro do rocesso de KDD, necessita-se definir a técnica e o algoritmo a ser utilizado em função da tarefa roosta. Uma vez escolhido o algoritmo a ser utilizado, deve-se imlementá-lo e adatá-lo ao roblema roosto. Para finalizar essa etaa deve-se executar o algoritmo a fim de obter resultados que serão analisados na fase de interretação e avaliação do resultado. A mineração de dados difere de técnicas estatísticas orque ao invés de verificar adrões hiotéticos utiliza os rórios dados ara descobrir tais adrões. De acordo com THEARLING et al. [39], aroximadamente 5% de todas as relações odem ser encontradas or esses métodos estatísticos. A mineração de dados ode descobrir outras relações anteriormente desconhecidas: os 95% restantes. Diversas ferramentas distintas, como redes neurais, árvores de decisão, algoritmos genéticos, sistemas baseados em regras e rogramas estatísticos, tanto isoladamente, quanto em combinação, odem ser alicadas ao roblema. No trabalho de KOHAVI et al. [21] é mostrado exerimentalmente que não a escolha or um único bom algoritmo ara todas as tarefas de mineração de dados não é trivial. Por isso, a escolha de vários algoritmos ara realizar a tarefa deseada ode ser feita, levando à obtenção de diversos modelos.

3.3 Princiais tarefas de mineração de dados Como a mineração de dados vem sendo desenvolvida ara os mais diferentes domínios, suas tarefas também vêm diversificando cada vez mais. Essas tarefas odem extrair diferentes tios de conhecimento, sendo necessário decidir, á no início do rocesso de mineração de dados, qual o tio de conhecimento que o algoritmo deve extrair. 3.3.1 Classificação A tarefa de classificação é uma função de arendizado que maeia dados de entrada, ou conuntos de dados de entrada, em um número finito de classes. Nela, cada exemlo ertence a uma classe, entre um conunto ré-definido de classes. O obetivo de um algoritmo de classificação é encontrar alguma correlação entre os atributos e uma classe, de modo que o rocesso de classificação ossa usá-la ara redizer a classe de um exemlo novo e desconhecido. A classificação consiste em obter um modelo baseado em um conunto de exemlos que descrevem uma função desconhecida. Esse modelo é utilizado osteriormente ara fornecer o valor de atributos de novos exemlos. São exemlos de tarefas de classificação: searar edidos de créditos em baixo, médio e alto risco ou identificar a forma de tratamento mais adequado ara um aciente, baseandose em classes de acientes que resondem bem a determinado tio de tratamento médico. 3.3.2 Regressão A tarefa de regressão é conceitualmente similar à de classificação. A rincial diferença é que o atributo a ser redito é contínuo em vez de discreto.

Os métodos de regressão á são estudados ela comunidade estatística há bastante temo. Porém, segundo INDURKHYA e WEISS [19], nas áreas de arendizado de máquina e mineração de dados, a maioria das esquisas é voltada ara roblemas de classificação, que são mais comumente encontrados na vida real do que roblemas de regressão. O obetivo da tarefa de regressão é encontrar uma relação entre um conunto de atributos de entrada e um atributo-meta contínuo. Por exemlo, sea X = {x1,..., xd} o atributo de entrada e y o atributo-meta, o obetivo é encontrar um maeamento da seguinte forma y = fx1,x2,...,xd. A regressão também é conhecida or redição funcional, redição de valor real, função de aroximação, ou ainda, arendizado de classes contínuas, segundo UYSAL e GUVENIR [40]. 3.3.3 Regras de associação Uma regra de associação caracteriza o quanto a resença de um conunto de itens nos registros de uma base de dados imlica na resença de algum outro conunto distinto de itens nos mesmos registros, conforme AGRAWAL e SRIKANT [2]. Desse modo, o obetivo das regras de associação é encontrar tendências que ossam ser usadas ara entender e exlorar adrões de comortamento dos dados. Por exemlo, observando os dados de vendas de um suermercado sabe-se que 80% dos clientes que comram o roduto Q também adquirem, na mesma comra, o roduto W. Nessa regra, 80% corresonde a sua confiabilidade. As cadeias de vareo usam associação ara lanear a disosição dos rodutos nas rateleiras das loas ou em um catálogo, de modo que os itens geralmente adquiridos na mesma comra seam vistos róximos entre si e chamem a atenção do cliente. 3.3.4 Agruamento O agruamento é um rocesso de artição de uma oulação heterogênea em vários

subgruos mais homogêneos. No agruamento, não existem classes ré-definidas, os registros são agruados de acordo com a semelhança, o que a diferencia da tarefa de classificação. Normalmente, a tarefa de agruamento é realizada antes de alguma outra forma de mineração. Por exemlo, em uma alicação de segmentação de mercado, ode-se rimeiro dividir os clientes em gruos que tenham comortamento de comra similar ou que ertençam a uma região do aís, ara deois alicar uma classificação. 3.3.5 Estimativa A estimativa é usada ara definir um valor ara alguma variável contínua desconhecida como, or exemlo, altura de uma essoa ou saldo de cartão de crédito. Ela trabalha com resultados contínuos. Pode ser usada ara executar uma tarefa de classificação, convencionando-se que diferentes faixas de valores contínuos corresondem a diferentes classes. Estimativa é arender uma função que maeia um item dado ara uma variável de redição real estimada, FAYYAD et al. [12]. Como exemlos de tarefas de estimativa têm-se: estimar o número de filhos em uma família, estimar a renda total de uma família, estimar o valor em temo de vida de um cliente, estimar a robabilidade de que um aciente morrerá baseando-se nos resultados de um conunto de diagnósticos médicos ou rever a demanda de um consumidor ara um novo roduto, ainda segundo FAYYAD et al. [12]. 3.3.6 Desvio A tarefa de desvio tem or obetivo descobrir um conunto de valores que não seguem adrões definidos. Para esta tarefa é necessário adotar adrões anteciadamente. Pode-se usar esta tarefa ara identificar fraudes baseadas em elementos que estão fora dos adrões ou são exceções às regras.

3.4 Conclusão Com o estudo da fase de mineração de dados, vê-se que seu obetivo deve ser bem conhecido ara uma escolha correta da tarefa a ser usada. Como o obetivo do trabalho é fazer um maeamento de um conunto de dados em um número finito de classes, ara auxiliar em tomadas de decisão, a tarefa mais adequada é a classificação. De acordo com esta escolha serão estudados métodos aroriados ara atingir o obetivo. Foi visto que não existe aenas um método eficiente ara cada alicação. De acordo com os bons resultados que vêm aresentando, serão estudadas as técnicas em redes neurais e árvores de decisão ara a classificação em mineração de dados. Os estudos das técnicas e seus algoritmos estão nos caítulos seguintes.

4 Redes Neurais 4.1 Introdução Neste caítulo é feito um estudo das redes neurais. Aós um histórico de como as redes neurais surgiram e suas evoluções é abordada a rede ercetron de múltilas camadas MLP. Também é discutida a forma de arendizado utilizada nesta rede, sendo estudados rofundamente os algoritmos de retroroagação e retroroagação resiliente. São aresentadas as equações utilizadas na roagação dos sinais, no sentido direto e reverso, em uma rede MLP, que utiliza uma função do tio sigmóide ara os neurônios da camada oculta e uma função linear ara os neurônios da camada de saída. Por fim são aresentadas as equações ara o algoritmo de retroroagação resiliente. 4.2 Redes neurais Uma rede neural artificial RNA é uma técnica que constrói um modelo matemático, de um sistema neural biológico simlificado, com caacidade de arendizado, generalização, associação e abstração. Assim como no cérebro humano, as redes neurais aresentam uma estrutura altamente aralelizada, comosta or rocessadores simles neurônios artificiais conectados entre si. De acordo com HAYKIN [15], uma roriedade imortante das redes neurais é a sua habilidade ara arender a artir do ambiente na qual estão inseridas, ou ambiente de arendizado, e melhorar seu desemenho através da arendizagem. As RNA's tentam arender or exeriência, ou sea, diretamente dos dados, através de um rocesso de reetidas aresentações dos dados à rede. Uma rede neural artificial é comosta or várias unidades de rocessamento, cuo funcionamento é bastante simles. Essas unidades geralmente são conectadas or canais de

comunicação que estão associados a determinados esos. Os esos do neurônio artificial nada mais são do que um modelo ara simular os dendritos, que são os resonsáveis elas sinases no cérebro humano. São os esos que alterando os seus valores reresentativos durante os estímulos, influenciam o resultado do sinal de saída, segundo TAFNER [38]. As entradas, simulando uma área de catação de estímulos, odem ser conectadas em muitos neurônios, resultando em uma série de saídas, onde cada neurônio reresenta uma saída. Essas conexões, em comaração com o sistema biológico, reresentam o contato dos dendritos com outros neurônios, formando assim as sinases. A função da conexão em si é tornar o sinal de saída de um neurônio em um sinal de entrada de outro, ou ainda, orientar o sinal de saída ara o mundo externo mundo real. Ainda segundo TAFNER [38], as diferentes ossibilidades de conexões entre as camadas de neurônios odem ter, em geral, n números de estruturas diferentes. Usualmente, trabalha-se com três camadas, que são classificadas em: Camada de entrada: onde os adrões são aresentados à rede; Camadas intermediárias ou ocultas: onde é feita a maior arte do rocessamento, através das conexões onderadas. Estas odem ser consideradas como extratoras de características; Camada de saída: onde o resultado final é concluído e aresentado. Por serem as configurações utilizadas neste trabalho, dar-se-á um destaque nas redes ercetrons de múltilas camadas, nos algoritmos de arendizado de retroroagação e retroroagação resiliente. 4.3 Alguns conceitos utilizados 4.3.1 Arendizado suervisionado Este método é chamado arendizado suervisionado orque a entrada e saída deseadas ara a rede são fornecidos or um suervisor rofessor externo. A figura do rofessor busca um equilíbrio de forma que sea criada uma ligação entre os ares de entrada e saída

fornecidos. Este método está reresentado na Figura 4.1. O rofessor avalia o comortamento da rede neural, indicando se está no caminho certo ou errado ara direcionar o rocesso de treinamento. A cada adrão de entrada fornecido, o rofessor avalia a saída atual e a comara com a saída deseada. Dessa forma austam-se os esos ara minimizar os erros. Figura 4.1: Reresentação do rocesso de arendizado suervisionado. Na fase de treinamento, o erro da rede na n-ésima iteração i.e., na aresentação do n-ésimo exemlo de treinamento é calculado tomando a diferença entre o valor deseado d k n i.e., valor de saída conhecido ara o k-ésimo neurônio e o valor de saída da rede z k n i.e., valor de saída da rede ara o k-ésimo neurônio, conforme 4.1: e k n = d k n z k n 4.1 O valor instantâneo da energia do erro ara a k-ésima saída é definida como sendo e 2 n / 2. Para se avaliar a energia instantânea total do erro, soma-se as contribuições de k todas as saídas, conforme 4.2. Ns 1 2 E n = e n 4.2 k 2 k= 1 No caso articular da rede ossuir aenas uma saída, a equação 4.2 se resume a 4.3.

E n 1 [ e n ] 2 1 [ d n 2 2 2 = = 4.3 z n ] A média dos erros quadrados de todo o conunto de treinamento Z, é utilizada ara uma análise geral do treinamento. Ela é avaliada conforme 4.4. 1 E 4.4 Z med = E n Z n= 1 O treinamento é todo realizado com o obetivo de austar os esos da rede, tal que a média dos erros quadrados sea minimizada. De acordo com PASSOS [29], como é deseável que o erro quadrado sea minimizado, deve-se levar em consideração a influência de dois fenômenos: o sobre arendizado e o sub-arendizado. O rimeiro é caracterizado quando a rede neural memoriza os dados de treinamento, mas aresenta uma generalização obre". Em outras alavras, o erro de treinamento E Tr é equeno, mas o erro de teste é grande E Te >> E Tr. Razões ossíveis ara o sobre arendizado incluem a resença de muitos neurônios ocultos ou a insuficiência dos dados de treinamento. Por outro lado, o sub arendizado acontece quando a rede tem dificuldade de arender os rórios dados de treinamento, ou sea, E Tr >> 0. Ainda segundo PASSOS [29], isto acontece, geralmente, devido a um número insuficiente de neurônios, treinamento insuficiente ou ela estabilização do algoritmo de treino em um mínimo local da suerfície de erro. A Figura 4.2 aresenta exemlos de sobre arendizado, sub arendizado e um modelo com boa arendizagem, ara dados sem a resença de ruídos.

Figura 4.2: Um modelo neural ilustrando: a sobre arendizado b sub arendizado e c boa arendizagem. Fonte: PASSOS [29] 4.3.2 Método do gradiente Sea uma função fxn contínua, numa dada iteração n. O método do gradiente é uma técnica numérica ara a minimização de funções como esta através de suas derivadas. A direção de esquisa em busca do mínimo da função será a direção negativa do gradiente. Ou sea: x n + 1 = x n η f x n 4.5 em que η é uma constante que determina a amlitude do asso na direção de descida da função, e é o oerador matemático que reresenta o gradiente de uma função escalar multivariável. A convergência será acelerada se for utilizado um valor de η grande, orém isto dificultará o encontro do mínimo aroriado. Por outro lado ocorre uma lentidão considerável na convergência quando o valor de η for muito equeno. O ideal é que ara cada iteração se conheça o η ótimo.

4.4 Evolução das redes neurais O rimeiro modelo artificial de um neurônio biológico foi fruto do trabalho ioneiro de McCulloch e Pitts, quando foi ublicado A Logical Calculus of the Ideas Immament in Nervous Activity. Neste trabalho é aresentada uma discussão sofisticada de redes lógicas de neurônios artificiais chamados de neurônios MCP. O trabalho de MCCULLOCH e PITTS [26] concentrou-se muito mais em descrever um modelo artificial de um neurônio e aresentar suas caacidades comutacionais do que em aresentar técnicas de arendizado. O rimeiro trabalho a ter ligação direta com o arendizado de redes artificiais foi aresentado or Donald Hebb, em 1949. Hebb mostrou como a lasticidade da arendizagem de redes neurais é conseguida através da variação dos esos de entrada dos neurônios. Ele roôs uma teoria ara exlicar o arendizado em neurônios biológicos baseada no reforço das ligações sináticas entre neurônios excitados. Mais tarde, WIDROW e HOFF [42] sugeriram uma regra de arendizado, conhecida como regra de delta, que ainda hoe é bastante utilizada. Esta, or sua vez, é baseada no método do gradiente descendente ara minimização do erro na saída de um neurônio com resosta linear. Em 1958, ROSENBLATT [35] demonstrou, com seu novo modelo, o ercetron, que se fossem acrescidas de sinases austáveis, as redes com neurônios MCP oderiam ser treinadas ara classificar certos tios de adrões. Rosenblatt descreveu uma toologia de rede, estruturas de ligação entre os neurônios e roôs um algoritmo ara treinar a rede ara executar determinados tios de funções. E em 1986, Rumelhart, Hinton e Willians ublicaram um trabalho onde foi desenvolvido o algoritmo de retroroagação ara treinamento de redes MLP multi layer ercetron, que são redes ercetron de múltilas camadas.

4.5 Redes ercetron de múltilas camadas MLP As redes ercetron de múltilas camadas têm como unidade básica o ercetron descrito or MCCULLOCH e PITTS [26]. Segundo PASSOS [29], estas unidades são distribuídas em camadas onde cada uma está conectada a todas as unidades da camada anterior. Neste modelo, é calculado o roduto interno das entradas alicadas, x i, com os esos, w e também é incororada uma olarização, x 0, alicada externamente. O efeito desta olarização é imortante quando a soma onderada dos neurônios da camada anterior for igual a zero. Ainda de acordo com PASSOS [29], a soma resultante, considerada como nível de atividade interna ou otencial de ativação é alicada então a uma função de ativação, φ., que ode ser a saída final da rede, ou a entrada de outros ercetrons da camada seguinte. A Figura 4.4 aresenta a configuração do ercetron. Figura 4.3: Modelo de neurônio artificial ercetron utilizado nas redes MLPs. Em redes MLP s as funções de ativação mais utilizadas são: Função linear: ϕ net = net 4.6 Função sigmóide: 1 ϕ net = 1+ ex net 4.7 Função tangente hierbólica: ϕ net = tanh net 4.8

HORNIK et al. [17] rovaram o teorema da aroximação universal ara as redes MLP. O teorema não demonstra como escolher o número de neurônios necessários ara alcançar a aroximação de uma função, mas afirma que semre existirá uma rede de três camadas caaz de aroximar qualquer função não linear e contínua. O que se sabe é que quanto mais comlexo o roblema deende do grau de não linearidade e dimensionalidade mais unidades ocultas serão necessárias. De acordo com HORNIK et al. [17], as falhas mais comuns em modelos neurais estão relacionadas a escolha do número de neurônios. Uma solução ara o roblema do tamanho da rede é o teste or tentativa e erro, até conseguir um nível arbitrário de aroximação. Deve ser considerado, no entanto, que o desemenho de uma rede neural deve ser medido não em função do seu número de neurônios, e sim ela sua caacidade de maeamento e generalização. 4.6 Algoritmos de retroroagação e retroroagação resiliente O rincíio do algoritmo de retroroagação é, utilizando-se o médodo do gradiente descendente, minimizar o erro das camadas intermediárias or meio de uma estimativa do efeito que estas causam no erro da camada de saída. Assim, o erro de saída da rede é calculado e este é retro-alimentado ara as camadas intermediárias, ossibilitando o auste dos esos roorcionalmente aos valores das conexões entre camadas. A utilização do gradiente descendente requer o uso de função de ativação contínua e diferenciável. Mas este algoritmo aresenta uma convergência lenta, causada elo tamanho das derivadas arciais nos esos. JACOBS [20] identificou duas causas fundamentais ara este fato: Segundo ele, quando a suerfície de erro E aresentar uma variação equena região flat em relação a um dado eso, sua derivada terá uma magnitude equena e consequentemente o auste será equeno, requerendo muitas iterações ara a convergência. Se a variação for elevada região shar, o gradiente e o auste também serão elevados acarretando uma assagem elo mínimo da suerfície de erro.

Ainda segundo JACOBS [20], o vetor oosto ao vetor gradiente ode aontar ara longe do mínimo da suerfície de erro fazendo com que os austes ocorram em uma direção ruim. Para uma boa convergência no modelo de retroroagação deve-se ter uma boa escolha da taxa de arendizado η. Uma técnica alicada ara esta escolha é o uso do algoritmo de retroroagação resiliente, utilizado neste trabalho e que foi roosto or RIEDMILLER [32]. A idéia básica do algoritmo de retroroagação resiliente é eliminar a influência do valor das derivadas arciais na atualização dos esos. Como conseqüência, é considerada somente a indicação do sinal da derivada arcial. A atualização dos esos é determinada, de acordo com RIEDMILLER [32], exclusivamente or um valor de atualização Δ n, conforme 4.9 e 4.10. n n E Δ, se > 0 w n n E Δw n = + Δ, se < 0 4.9 w 0, demais casos onde Δ n é aumentado ou diminuído segundo o rocedimento dado em 4.10. + η Δ Δ n = η Δ Δ n 1 n 1 n 1,,, se se E w E w n n n E w n E w demais casos 1 1 > 0 < 0 4.10 Em 4.9 e 4.10, E n é a função erro quadrática 4.3, η + = 1,2 e η - = 0,5 são constantes escolhidas emiricamente.