ESPÍNDOLA, ROGÉRIO PINTO Sistema Inteligente Para Classificação De Dados [Rio de Janeiro] 2004 X, 113 p. 29,7 cm (COPPE/UFRJ, D.Sc.

Transcrição

1

2 ESPÍNDOLA, ROGÉRIO PINTO Sistema Inteligente Para Classificação De Dados [Rio de Janeiro] 2004 X, 113 p. 29,7 cm (COPPE/UFRJ, D.Sc., Engenharia Civil, 2004) Tese - Universidade Federal do Rio de Janeiro, COPPE 1. Classificação de dados 2. Aprendizado de Máquina 3. Ávores de decisão fuzzy 4. Algoritmos Genéticos I. COPPE/UFRJ II. Título (série) ii

3 À Hellem e à Luísa iii

4 AGRADECIMENTOS Ao meu orientador Nelson Ebecken pela oportunidade de ingressar no programa há 7 anos, fato que mudou minha vida, pela orientação direta e indireta, e pela amizade, boa-vontade, conselhos e incentivo; Ao professor Alexandre Evsukoff pelas sugestões e discussões sempre produtivas e pela amizade construída ao longo deste ano; Ao professor Luiz Landau pela participação na banca, pelo incentivo e por concederme a bolsa de estudos; Ao professor Eduardo Hruschka pela participação na banca e pelas sugestões oferecidas; Ao professor Hélio Barbosa pelas sugestões oferecidas e por mais uma vez participar de uma defesa minha; À ANP por ter financiado esta pesquisa e por incentivar as pesquisas na indústria de petróleo; Ao Programa de Engenharia Civil por fornecer ótimas condições de pesquisa a seu corpo discente; À Estela por sempre resolver questões burocráticas dos alunos com boa-vontade; À competente equipe do laboratório de informática pelo zelo e pelo auxílio dado aos usuários em muitas situações; Aos amigos de curso José Luiz, Lúcio e Maria Inês pela amizade a qualquer hora; Aos meus sogros Marluce e Roberto pelo amor e por tudo o que fizeram e fazem para o sucesso de nossa família; Aos meus pais pelo amor, pela dedicação, pelo incentivo e por tudo o que fizeram ao longo da minha existência; Aos meus dois eternos amores, Hellem e Luísa, que são a maior motivação para tudo o que faço, por me dar tudo o que de melhor alguém sonha receber. iv

5 Resumo da Tese apresentada à COPPE/UFRJ como parte dos requisitos necessários para a obtenção do grau de Doutor em Ciências (D.Sc.) SISTEMA INTELIGENTE PARA CLASSIFICAÇÃO DE DADOS Rogério Pinto Espíndola Dezembro/2004 Orientador: Nelson Francisco Favilla Ebecken Programa: Engenharia Civil Este trabalho apresenta um sistema que utiliza técnicas de Inteligência Artificial para a classificação de dados. Ele constitui-se de um algoritmo genético que otimiza bases de regras fuzzy do modelo Takagi-Sugeno-Kang para classificação. Este algoritmo genético possui características especiais tais como iniciação por árvores de decisão fuzzy, recombinação booleana, reiniciação de indivíduos e controle de diversidade. Além da classificação pretende-se realizar a seleção dos atributos relevantes de um problema e produzir classificadores compreensíveis. Diversos problemas são estudados para avaliar a qualidade do modelo e o modelo de árvores de decisão C4.5 v.8 é utilizado para comparação dos resultados. v

6 Abstract of Thesis presented to COPPE/UFRJ as a partial fulfillment of the requirements for the degree of Doctor of Science (D.Sc.) INTELLIGENT SYSTEM FOR DATA CLASSIFICATION Rogério Pinto Espíndola December/2004 Advisor: Nelson Francisco Favilla Ebecken Department: Civil Engineering This research presents an intelligent system which employs Artificial Intelligence techniques to perform data classification. The system is a genetic algorithm which optimizes Takagi-Sugeno-Kang fuzzy rule bases for classification. This genetic algorithm has special features such that fuzzy decision tree initiation, boolean recombination, restart of individuals and genetic diversity control. Beyond the classification, it is our intention to perform feature selection and to produce comprehensible classifiers. Some problems are approached in order to assess the quality of the system and the C4.5 v.8 decision tree model is employed to have its results compared. vi

7 Índice 1. Introdução Objetivos Relevância Contribuição Árvores de decisão fuzzy Introdução Árvores de decisão fuzzy A árvore fuzzy deste trabalho Outros trabalhos sobre árvores de decisão fuzzy O modelo fuzzy-genético Gerando regras a partir dos dados numéricos Classificação de novos elementos A aplicação do algoritmo genético Introdução Codificação e função de adeqüabilidade Os operadores genéticos A iniciação populacional por árvore fuzzy Problemas estudados Descrições dos problemas O ambiente WEKA e as formas de teste dos modelos A avaliação de classificadores Configurações do sistema fuzzy-genético Resultados obtidos Considerações iniciais As árvores fuzzy induzidas As conversões de árvores fuzzy para regras TSK de ordem zero Indivíduos-base vs. indivíduos gerados aleatoriamente As recombinações O controle de diversidade Os classificadores encontrados Conclusões Considerações finais Pesquisas futuras Referências bibliográficas Anexo vii

8 Índice de tabelas Tabela 3.1. Regras fuzzy TSK Tabela 3.2. Funções de pertinência triangulares Tabela 3.3. Funções de pertinência trapezoidais Tabela 3.4. Funções de pertinência multi-sigmoidais Tabela 3.5. Operações realizadas pela recombinação booleana Tabela 4.1. Problemas estudados Tabela 4.2. Propriedades das bases de dados dos problemas estudados Tabela 4.3. Parâmetros do sistema fuzzy-genético e seus domínios Tabela 4.4. Configuração do sistema fuzzy-genético Tabela 4.5. Significados das abreviações que serão utilizadas Tabela 5.1. Tamanhos das bases de regras utilizadas Tabela 5.2. Árvores fuzzy e C4.5 médias Tabela 5.3. Desempenhos das árvores fuzzy com limite de indução 0, Tabela 5.4. Melhores indivíduos aleatórios vs. conversões das árvores fuzzy Tabela A.1. Árvores fuzzy obtidas em cada etapa da validação cruzada Tabela A.2. Árvores C4.5 obtidas em cada etapa da validação Tabela A.3. Árvores fuzzy e suas conversões em regras TSK (médias) Tabela A.4. Características das gerações iniciais Tabela A.5. Resultados médios ndiv Tabela A.6. Adeqüabilidades médias com e sem controle de diversidade Tabela A.7. abal Classificadores finais médios Tabela A.8. bala Classificadores finais médios Tabela A.9. carr Classificadores finais médios Tabela A.10. cred Classificadores finais médios Tabela A.11. figa Classificadores finais médios Tabela A.12. g945 Classificadores finais médios Tabela A.13. indi Classificadores finais médios Tabela A.14. iono Classificadores finais médios Tabela A.15. iris Classificadores finais médios Tabela A.16. leve Classificadores finais médios Tabela A.17. mam1 Classificadores finais médios Tabela A.18. mam2 Classificadores finais médios Tabela A.19. mete Classificadores finais médios Tabela A.20. vidr Classificadores finais médios Tabela A.21. vinh Classificadores finais médios Tabela A.22. C4.5 Classificadores finais médios viii

9 Índice de figuras Figura 1.1. Objetivos da pesquisa... 2 Figura 1.2. Como a lógica fuzzy atua em algoritmos genéticos... 5 Figura 1.3. Como os algoritmos genéticos atuam em sistemas fuzzy... 6 Figura 2.1. Exemplo de árvore de decisão para a classificação de plantas íris... 9 Figura 2.2. Exemplo de árvore de decisão fuzzy para a classificação de plantas íris Figura 3.1. Representação gráfica das funções de pertinência triangulares Figura 3.2. Representação gráfica das funções de pertinência trapezoidais Figura 3.3. Representação gráfica das funções de pertinência multi-sigmoidais Figura 3.4. Um indivíduo ou solução candidata Figura 3.5. Exemplo de aplicação da recombinação booleana do tipo Figura 3.6. Exemplo de aplicação da recombinação booleana Figura 3.7. Exemplo de geração de uma solução sem regras Figura 4.1. Distribuições de classes dos problemas estudados Figura 4.2. Estrutura de uma matriz de confusão Figura 4.3. Relação de custo/benefício entre precisão e sensitividade Figura 4.4. Espaço ROC e alguns classificadores discretos Figura 4.5. Curvas ROC de alguns classificadores discretos Figura 4.6. Curvas ROC de alguns classificadores probabilísticos Figura 4.7. Áreas sob as curvas ROC de alguns classificadores discretos Figura 5.1. Quantidades médias de folhas das árvores produzidas Figura 5.2. Acurácias médias das árvores Figura 5.3. Diferenças de regras entre os indivíduos-base e as árvores fuzzy Figura 5.4. Comportamento das conversões das árvores fuzzy (quantidade de regras).. 52 Figura 5.5. Indivíduos-base vs. expectativa aleatória (quantidade de regras) Figura 5.6. Diferenças de acurácias entre os indivíduos-base e as árvores fuzzy Figura 5.7. Comportamento das conversões das árvores fuzzy (acurácia) Figura 5.8. Indivíduos-base vs. melhores indivíduos aleatórios (regras) Figura 5.9. Indivíduos-base vs. melhores indivíduos aleatórios (acurácias) Figura Confrontos entre indivíduos-base e melhores indivíduos aleatórios Figura Melhores indivíduos gerados por árvore fuzzy vs. melhores indivíduos aleatórios (acurácia) ix

10 Figura Comportamento das iniciações por árvores fuzzy vs. iniciações aleatórias (acurácias médias dos melhores indivíduos) Figura Melhores indivíduos gerados por árvore fuzzy vs. melhores indivíduos aleatórios (regras) Figura Iniciações por árvores fuzzy vs. aleatórias (totais de alelos 1) Figura Iniciações por árvores fuzzy vs. aleatórias (diversidade média) Figura Comparação das recombinações em termos de regras dos classificadores 61 Figura Comparação das recombinações em termos de diversidades médias Figura Comparação das recombinações em termos de reinícios Figura Comparação das recombinações em termos de atributos utilizados Figura Comparação das recombinações em termos de acurácia Figura Atuação do controle de diversidade Figura Médias das avaliações para todas as configurações do problema abal Figura Médias das avaliações para todas as configurações do problema bala Figura Médias das avaliações para todas as configurações do problema carr Figura Médias das avaliações para todas as configurações do problema cred Figura Médias das avaliações para todas as configurações do problema figa Figura Médias das avaliações para todas as configurações do problema g Figura Médias das avaliações para todas as configurações do problema indi Figura Médias das avaliações para todas as configurações do problema iono Figura Médias das avaliações para todas as configurações do problema iris Figura Médias das avaliações para todas as configurações do problema leve Figura Médias das avaliações para todas as configurações do problema mam Figura Médias das avaliações para todas as configurações do problema mam Figura Médias das avaliações para todas as configurações do problema mete Figura Médias das avaliações para todas as configurações do problema vidr Figura Médias das avaliações para todas as configurações do problema vinh Figura Comparação de classificadores fuzzy e árvores C4.5 (acurácia) Figura Comparação de classificadores fuzzy e árvores C4.5 (AUC1) Figura Comparação de classificadores fuzzy e árvores C4.5 (GSE.méd2) x

11 1. Introdução 1.1. Objetivos O objetivo do presente trabalho é desenvolver e implementar uma estratégia eficiente para a classificação de dados da indústria do petróleo. O problema de classificação de dados encontra grande aplicação em diversas áreas, tais como a classificação de óleos, de rochas e de imagens, determinação de limites de reservatórios, dentre outras. Como exemplos dessas aplicações, podem ser citadas as seguintes atividades: a descoberta das condições de prisão de uma coluna de perfuração a partir de uma extensa base de dados de histórico de perfuração; a detecção de derramamentos de óleos na superfície marinha por meio de imagens de satélites; a identificação das características que levam um projeto de pesquisa e desenvolvimento ser bem sucedido ou não; a classificação de óleos a partir de dados de cromatografia gasosa; a identificação de litofácies de poços de petróleo através de dados sísmicos; a determinação da localização ótima de um novo poço através de dados de sísmica tridimensional; a determinação dos limites de um reservatório de gás natural por meio de dados geoquímicos de superfície; estudos de tarifação de gás natural para oferecer preço compatível com o setor industrial, levando em consideração o combustível a ser substituído, características de localização e políticas, dentre outros fatores; a avaliação da viabilidade econômica de um reservatório de gás natural. As pesquisas de novos classificadores têm encontrado motivação não só na precisão da classificação dos dados como também na aquisição e representação de conhecimentos associados à classificação (Figura 1.1). Este trabalho propõe uma metodologia para aumentar a eficiência de um algoritmo genético aplicado a uma base de regras fuzzy de classificação (ESPÍNDOLA, 1

12 1999). As características deste modelo são detalhadamente apresentadas no capítulo 3. A nova metodologia pretende: realizar a tarefa de seleção de atributos simultaneamente à de classificação ao avaliar as soluções candidatas segundo esta característica; gerar classificadores fuzzy robustos, eficazes e compreensíveis. Classificação BANCO DE DADOS REGRAS FUZZY Redução dimensional Aquisição de conhecimentos Figura 1.1. Objetivos da pesquisa Para atingí-los, o algoritmo genético incorporou as seguintes atividades: controle da diversidade genética populacional durante o processo evolutivo; emprego de uma árvore de decisão fuzzy para gerar indivíduos iniciais de boa qualidade; emprego de novos operadores genéticos. A partir de uma base de dados, um conjunto de regras fuzzy é gerado e o algoritmo genético procura identificar um subconjunto de regras que seja o mais preciso e compacto possível, além de empregar poucos atributos, sendo este o melhor indivíduo. A técnica de árvores de decisão é utilizada para encontrar um indivíduo de boa adeqüabilidade em pouco tempo e empregá-lo durante a iniciação da primeira geração de indivíduos, fazendo com que uma menor quantidade de gerações sejam utilizadas pelo algoritmo genético para encontrar o melhor indivíduo. Do indivíduo inicial obtido da árvore, não é exigida muita acurácia visto que o algoritmo genético poderá encontrar indivíduos de grande adeqüabilidade muitos acertos com poucas quantidades de regras e de atributos. Entretanto, há maior rigor 2

13 quanto à quantidade de regras. Quanto menor a quantidade de regras, mais rapidamente é realizada a avaliação de um indivíduo, etapa de maior morosidade de um algoritmo genético. Este ganho em rapidez se tornará maior à medida que o tamanho de uma base de dados aumenta, seja na quantidade de registros ou na quantidade de atributos. Na seção seguinte, a importância da tarefa de classificação é apresentada, bem como as das principais técnicas de inteligência artificial utilizadas para abordá-la Relevância O aprendizado de máquina envolve o estudo e a modelagem computacional dos processos de aprendizado em suas várias manifestações (MICHALSKI et al., 1984), isto é, abrange procedimentos computacionais automáticos que aprendem uma determinada tarefa a partir de uma série de exemplos (MITCHELL, 1999, DIETTERICH, 2003). A classificação é uma importante tarefa do aprendizado de máquina. Seu objetivo é fazer previsões ou tomar decisões baseando-se na informação disponível sobre um problema (GORDON, 1991, MICHIE et al., 1994). Em outras palavras, a classificação atribui classes preexistentes a novos elementos cujas classes são desconhecidas. Existem diversas situações em que a tarefa de classificação se faz importante, tais como diagnósticos de doenças, diagnósticos de falhas em peças mecânicas e sistemas, reconhecimento de imagens e análises de riscos de investimentos. Diversas técnicas computacionais podem ser empregadas para a execução da classificação, tais como os sistemas baseados em regras (LIAO, 2004), as árvores de decisão (QUINLAN, 1993), as redes neurais artificiais (HAYKIN, 1999) e os métodos estatísticos (HOLMSTRÖM et al., 1996). Estas são, provavelmente, as mais comuns. Entretanto, outras técnicas também têm sido bastante utilizadas e estão ocupando papéis de destaque na produção de sistemas classificadores. A computação evolucionária (SCHOENAUER & MICHALEWICZ, 1997), por exemplo, tem sido empregada tanto para descobrir relações ótimas entre os atributos e as classes de um problema, quanto para otimizar o desempenho e/ou os parâmetros de outras técnicas de aprendizado de máquina (COLLARD & FRANCISCI, 2001). A área mais difundida da computação evolucionária é a de algoritmos genéticos (GOLDBERG, 1989). Isto se deve ao fato de constituírem uma técnica de otimização aplicável a qualquer situação e capaz de abordar problemas bastante complexos de maneira eficiente, êxito este que muitos outros 3

14 métodos não obtêm seja pela dificuldade de tratamento ou pela impossibilidade de abordagem. A eficiência de um método de aprendizado de máquina não está apenas caracterizada pela sua capacidade de resolver um problema. A representação do conhecimento adquirido a partir de uma base de dados também ocupa papel de destaque (WEBB, 2002, ASKIRA-GELMAN, 1998). Por exemplo, ela é responsável pelo correto emprego do sistema classificador e por permitir uma maior compreensão sobre o problema estudado. Um dos meios mais eficientes de representação de conhecimento é o emprego de um conjunto de regras ou base de regras (STEFANOWSKI, 2004). Uma regra é uma implicação lógica: é composta de uma parte chamada antecedente que descreve as condições da regra e outra parte chamada conseqüente que realiza a conclusão da informação. A parte antecedente é formada por argumentos agrupados por operadores lógicos (e, ou, não etc.), gerando uma expressão lógica. Se essa expressão for verdadeira, isto é, se as condições da regra forem satisfeitas, então a parte conseqüente determinará a ação a ser executada. Além das medidas de relacionamento entre as partes antecedente e conseqüente das regras tais como o grau de certeza, o grau de interesse e a acurácia (YAO & ZHONG, 1999) a qualidade interpretativa de uma base de regras também pode ser avaliada pela quantidade de condições e conclusões presentes na estrutura de representação. Neste caso, quanto mais elementos uma regra possuir mais difícil é o seu entendimento. Exemplificando, uma regra cujo antecedente possua apenas duas condições é melhor compreendida que outra com dezenas de condições. Outros fatores importantes são a quantidade de regras da base, a quantidade de atributos utilizados pelas regras e a presença de qualificadores lingüísticos para descrevê-los. Uma regra que utilize esses elementos lingüísticos é nitidamente mais compreensível que outra que trabalhe com comparações numéricas, já que grande parte do conhecimento humano está armazenada em forma lingüística (GUILLAUME, 2001, NAKASHIMA et al., 2003). A transformação de informações numéricas precisas das bases de dados em informações lingüísticas imprecisas ocorre com sucesso por meio das técnicas originadas da teoria dos conjuntos fuzzy (PEDRYCZ & GOMIDE, 1998), originando os sistemas baseados em regras fuzzy. O seu emprego também se faz importante pois a grande maioria dos problemas contém informações imprecisas e ambíguas, seja pelo 4

15 fato de não existirem medidas adequadas ou porque estas não são devidamente realizadas. Uma característica interessante dos sistemas fuzzy é que eles são facilmente combinados a outras técnicas. Dentre as mais populares combinações está a com algoritmos genéticos e elas ocorrem de diversas maneiras, freqüentemente com sucesso (CORDÓN et al., 2004). Construir modelos híbridos que aliem as características destas duas técnicas significa desenvolver um dos mais robustos sistemas de aprendizado de máquina. Os conceitos da teoria dos conjuntos fuzzy têm sido aplicados em algoritmos genéticos para modelar novas formas de representação cromossômica e novos operadores genéticos, para avaliar a adeqüabilidade dos indivíduos, para controlar os parâmetros durante a evolução e para estudar os relacionamentos entre os parâmetros (Figura 1.2), dentre outras atividades (HERRERA et al., 1995a, HERRERA & LOZANO, 1999, LEE & TAKAGI, 1993, SUBBU & BONISSONE, 2003). Controle de parâmetros ALGORITMOS GENÉTICOS Representação cromossômica Operadores fuzzy Funções de adeqüabilidade fuzzy Critério de parada Figura 1.2. Como a lógica fuzzy atua em algoritmos genéticos Por outro lado, muitos algoritmos genéticos têm sido desenvolvidos para otimizar o desempenho de sistemas baseados em regras fuzzy aplicados a diversas tarefas, tais como controle e classificação (WONG e LIN, 1997, YUAN e ZHUANG, 1996). Destacam-se também inúmeros trabalhos sobre projeto, aprendizado e ajuste de parâmetros de bases de regras fuzzy tais como funções de pertinência, estrutura de regras e tamanho da base (Figura 1.3) por algoritmos genéticos (CORDÓN et al., 1996, HERRERA et al., 1995b). 5

16 Seguindo esta última linha de pesquisa, ESPÍNDOLA & EBECKEN (2000) apresentaram um algoritmo genético que seleciona um subconjunto de uma base de regras fuzzy de classificação. Estas regras são do modelo Takagi-Sugeno-Kang (TSK) de ordem zero decompostas (EVSUKOFF et al., 1997). São de ordem zero por produzirem como respostas valores independentes das variáveis de entrada em vez de uma função destas. São decompostas por serem originadas da divisão das regras originais, que possuem uma condição para cada atributo, com sua parte antecedente sendo formada por apenas uma condição. Em outras palavras, seja uma regra TSK com n condições na parte antecedente. A partir dela são geradas n regras possuindo a mesma conclusão, com cada regra utilizando uma das condições da regra original (cf. seção 3.1). Determina ção de conjuntos SISTEMAS FUZZY Ajuste de parâmetros Gera ção de bases de regras Otimização de bases de regras Figura 1.3. Como os algoritmos genéticos atuam em sistemas fuzzy A importância da classificação cresce à medida que o volume de dados armazenados aumenta, situação bastante comum atualmente. Conseqüentemente, a manipulação dos dados e a descoberta de informações que neles estão contidas implicitamente (FAYYAD et al., 1996) tornam-se mais difíceis. Estas dificuldades não estão somente associadas à grande quantidade de elementos (registros) que representam diferentes situações, mas também à enorme quantidade de atributos (campos) necessários para uma descrição dessas situações. A manipulação dos dados envolve também outras questões cruciais para a escolha de uma metodologia (PYLE, 1999), tais como saber de que maneira as freqüentes 6

17 irregularidades presentes nos dados inconsistência de valores e atributos, campos vazios, dentre outras devem ser abordadas. Ao se projetar uma base de dados para um estudo, dificilmente são conhecidos com exatidão os atributos suficientes e necessários para a sua correta descrição. Freqüentemente, os registros de uma base de dados são utilizados em diversos estudos e cada um faz uso de um determinado subgrupo dos atributos. Assim, para uma dada pesquisa, alguns atributos são relevantes e outros não, sendo estes últimos caracterizados como irrelevantes, aqueles que não influenciam a decisão de maneira alguma, ou redundantes, aqueles que não trazem algo novo para a tomada de decisão (DASH & LIU, 1997, BLUM & LANGLEY, 1997). Como a quantidade de atributos utilizada tem grande influência nos algoritmos de aprendizado, a identificação daqueles atributos realmente importantes para uma aplicação torna-se um fator de extrema importância para que ela obtenha sucesso. A exclusão, no estudo, de atributos irrelevantes ou redundantes quase sempre melhora a qualidade dos resultados obtidos. Em muitas situações, aqueles ocultam informações interessantes presentes nos outros atributos (PIRAMUTHU, 2004). Considerando a tarefa de classificação, YANG e HONAVAR (1997) afirmam que a escolha de um subconjunto de atributos afeta, dentre outros fatores, a precisão de um sistema classificador, o seu custo, o tempo e a quantidade de exemplos necessários para o seu aprendizado. Esta atividade compreende uma tarefa correlata a de classificação conhecida como seleção de atributos. A seleção de atributos pode ser definida, segundo LIU e MOTODA (1998), como o processo de escolha de um subconjunto de atributos ótimo de acordo com algum critério. Este critério pode ser, por exemplo, a melhor estimativa de acurácia do classificador que o irá utilizar. A seleção de atributos pode ser vista como um problema de busca cujo espaço é formado por 2 n soluções candidatas, sendo n a quantidade de atributos de uma base de dados. Sendo um problema de busca, faz-se necessário definir três elementos: (a) o procedimento de geração de uma nova solução, (b) uma função de avaliação de soluções e (c) um critério de parada da busca. Sob esta ótica, a seleção de atributos pode ser abordada pelos algoritmos tradicionais de busca heurística (KITTLER, 1978, KOHAVI, 1995a), estratégia inviável quando n é muito grande, pelos algoritmos genéticos (YANG & HONAVAR, 1997, CASILLAS et al., 2001, MARTIN-BAUTISTA & VILA, 1999), além das redes neurais artificiais (SETIONO & LIU, 1997, CASTELLANO & FANELLI, 1999) dentre outras 7

18 técnicas. Vale destacar os trabalhos de BLUM & LANGLEY (1997), HALL & HOLMES (2003) e PIRAMUTHU (2004), que realizaram comparações entre diversos algoritmos de seleção de atributos Contribuição Este trabalho procura desenvolver uma metodologia capaz de gerar automaticamente uma base de conhecimentos compreensível a partir da base de dados de um problema e realizar a tarefa de classificação de forma eficiente. Para a realização de tal proposta, vários estudos foram realizados e permitiram a constatação do ineditismo das seguintes características: a seleção de um subconjunto de regras fuzzy TSK para classificação por meio de um algoritmo genético multi-objetivo; a iniciação do algoritmo genético por meio de árvores fuzzy; o emprego da recombinação booleana; a estratégia de controle de diversidade utilizada. Os capítulos 2 e 3 apresentam mais detalhes a respeito de como estas características foram implementadas. O capítulo 4 discute os problemas estudados e as formas de realização dos testes. O capítulo 5 apresenta a análise detalhada dos resultados obtidos e o último capítulo traz as considerações finais e as propostas de pesquisas futuras. 8

19 2. Árvores de decisão fuzzy 2.1. Introdução As árvores de decisão constituem uma técnica bastante popular na realização da tarefa de classificação devido às seguintes características (KOTHARI & DONG, 2001): são geradas rapidamente; são facilmente aplicáveis em domínios numéricos ou não; suas decisões são facilmente compreendidas. Dado um espaço amostral de um problema, uma árvore de decisão (BREIMAN et al., 1984) procura representar as informações nele contidas (Figura 2.1). Quanto maior o poder de predição de uma árvore, maior é a sua fidelidade à amostra analisada. Comprimento da pétala 2,0 Largura da pétala 1 < 1,6 1,6 Comprimento da sépala Comprimento da pétala < 5,0 5,0 < 4,9 4, Figura 2.1. Exemplo de árvore de decisão para a classificação de plantas íris Inicialmente, um atributo é selecionado de modo que maximize alguma medida de progresso de predição ou outra arbitrada pelo pesquisador (critério de ramificação). 9

20 Após a seleção do atributo, define-se em quantas partes a base de dados será dividida e, então, são identificados em quais valores do domínio do atributo ocorrerá o particionamento. Este constitui-se de testes lógicos, sendo chamado de nó de decisão. Em especial, este primeiro nó de decisão é chamado de nó-raiz da árvore. Para cada subconjunto de dados gerado pelo nó-raiz, o processo é repetido, recursivamente, até que alguma instrução determine a interrupção do processo (critério de parada), formando os nós-folhas. Em árvores de classificação, estes nós-folhas informam as classes de um problema. O caminho que leva o nó-raiz a um nó-folha é chamado de ramo. Assim como o critério de ramificação, o critério de parada também pode ser definido segundo a vontade do pesquisador. O mais comum é que se interrompa a indução quando não houver mais progresso se for feita nova ramificação ou quando um subconjunto a ser criado for formado por apenas um registro. Neste segundo caso, a árvore gerada pode se tornar muito complexa (com muitas ramificações e, portanto, nós) e, freqüentemente, com alta taxa de erro na predição (QUINLAN, 1993). Para evitar esta situação ou se interrompe o processo antes que a árvore se torne muito complexa, ou permite-se que a árvore seja criada até o fim para depois remover parte de sua estrutura. No primeiro caso, chamado de parada ou pré-poda, não se perde tempo construindo uma estrutura que não será aproveitada. A grande dificuldade desta estratégia é determinar o momento exato da interrupção pois é possível que se pare antes ou depois do ponto ideal. No segundo caso, chamado de poda ou pós-poda, há um consumo maior de tempo para se gerar toda a árvore, algumas vezes substancial. QUINLAN (1993) defende que a maior exploração da base de dados freqüentemente compensa esta desvantagem, permitindo o encontro de subárvores mais confiáveis, isto é, com maior poder de predição. Independente da estratégia escolhida, as vantagens de podar uma árvore podem ser grandes (KIM & KOEHLER, 1995, ESPOSITO et al., 1997). Além de ter sua complexidade reduzida, a árvore encontrada possivelmente tem o seu poder de predição aumentado e torna-se mais compreensível quando seus ramos são convertidos em regras. Cada ramo, desde o nó-raiz até seu nó-folha, pode ser transformado em uma regra em que a parte antecedente é formada pela conjunção lógica dos nós de decisão e a conclusão é a classe presente no nó-folha. Dois dos mais populares modelos de indução de árvores são o ID3 (QUINLAN, 1986) e o CART (BREIMAN et al., 1984). Em poucas palavras, o ID3 utiliza a medida 10

21 de ganho de informação para avaliar os atributos, com domínios discretos, escolhendo aquele que a maximize. Esta medida é baseada no conceito de entropia, que informa o grau de impureza de uma informação ou, nesta pesquisa, o grau de diversidade de classes em um conjunto de registros. Quanto menor a entropia, maior é o ganho de informação. Após a escolha do atributo que minimize a entropia dos dados, o nó de decisão é ramificado em todos os valores do domínio do atributo. Uma folha é criada quando um dado ramo só possuir elementos pertencentes a uma mesma classe ou quando todos os atributos já tiverem sido utilizados. O CART trabalha com atributos contínuos e produz árvores binárias, isto é, aquelas em que cada nó de decisão possui apenas dois ramos, definindo dinamicamente de que maneira é realizado o particionamento. Os particionamentos dos atributos e a escolha de um deles para a ramificação da árvore são atividades dependentes entre si. O par atributo/particionamento escolhido é aquele que minimize a impureza nos dados, calculada pelo índice GINI. No CART, um ramo pode escolher várias vezes um mesmo atributo para a ramificação, o que prejudica a sua interpretação. Uma árvore é desenvolvida até que a impureza dos dados não consiga ser reduzida e depois é realizada a poda baseando-se na complexidade da árvore (profundidade e quantidade de nós) e nos erros cometidos durante o treinamento Árvores de decisão fuzzy Embora eficiente na tomada de decisões em diversas áreas, as árvores de decisão são inadequadas para expressar incertezas e ambigüidades inerentes ao pensamento humano (QUINLAN, 1987). Pequenas variações nos valores de um atributo podem resultar em uma classificação diferente e/ou inesperada (QUINLAN, 1986). Para lidar com essa dificuldade, o emprego de árvores de decisão com a teoria dos conjuntos fuzzy tem sido realizado. De modo simplificado, árvores de decisão fuzzy aplicam a lógica fuzzy na formulação dos nós de decisão nós de decisão fuzzy e das conclusões definidas nos nós-folhas. Além disso, a inferência realizada pela árvore também é fuzzy. Elementos lingüísticos definidos por conjuntos fuzzy são utilizados para a ramificação da árvore, em vez dos valores originais dos domínios dos atributos (Figura 2.2). Diferentemente do que ocorre com as árvores de decisão clássicas, nas árvores 11

22 fuzzy existem vários caminhos a serem percorridos para se realizar a predição de um elemento. Assim, diversos nós-folhas realizam a predição com diferentes graus de certeza. Comprimento da pétala pequeno médio Largura da pétala 1 Comprimento da sépala média grande Comprimento da pétala médio grande médio grande Figura 2.2. Exemplo de árvore de decisão fuzzy para a classificação de plantas íris Além disso, um nó-folha pode realizar mais de uma conclusão. Então, é necessário definir uma estratégia de inferência para a árvore observando a diversidade de conclusões presente em cada nó-folha e a diversidade de ramos que geraram uma resposta. E se a resposta da árvore for um conjunto fuzzy e precisar ser defuzzificada, um procedimento adicional precisará ser definido também A árvore fuzzy deste trabalho A árvore fuzzy de classificação utilizada neste estudo é a proposta por YUAN e SHAWN (1995). O seu critério de ramificação seleciona o atributo que minimize a medida de ambigüidade de classificação. O critério de parada é atingido e um nó-folha 12

23 é criado quando não houver mais atributos que reduzam esta medida ou quando algum dos graus de certeza do ramo (um para cada classe), ao realizar a classificação de seus elementos, for superior a um valor pré-estabelecido chamado de limite de indução. Quando este caso ocorrer, a classe com o maior dos graus de certeza será utilizada na classificação. Este modelo de árvore de decisão foi escolhido devido à incorporação de incertezas cognitivas (KLIR, 1987) no processo de indução e porque os graus de certeza dos ramos e as respostas das regras do sistema fuzzy-genético são definidos pelo mesmo conceito, fuzzy subsethood, que informa o grau de inclusão de um conjunto em outro. Nas fórmulas apresentadas a seguir, a palavra inclusão indica o uso deste conceito. A escolha de um atributo para constituir um nó de decisão se dá pela sua ambigüidade de classificação: quanto menor ela for, melhor o atributo será. Antes de apresentar a definição de ambigüidade de classificação de um atributo, é indispensável a apresentação de algumas definições preliminares. Uma evidência fuzzy é um subconjunto fuzzy definido no espaço dos atributos que representa os valores lingüísticos tomados por um ou mais atributos. Por exemplo, considerando um problema com atributos Pressão e Temperatura, a evidência fuzzy Quente Baixa está associada às condições Temperatura é Quente e Pressão é Baixa. Dada uma evidência fuzzy A e um conjunto de evidências B { B, K, } partição fuzzy B em A é definida por B A { B A,, B A} 1 J =, uma 1 B J = K. Cada objeto em A é particionado com B i com pertinência µ, 1 i J. Considerando o exemplo do B i A parágrafo anterior, sendo A a evidência fuzzy Temperatura é Quente e B = { Pressão Baixa, Pressão Média, Pressão Alta}, então a partição B A é o conjunto { Baixa Quente, Média Quente, Alta Quente} B A = B.. Quando A é o universo dos objetos, Assim, a ambigüidade de classificação dada uma partição B na evidência A é denotada por ( B A) G e é definida pela média ponderada das ambigüidades de classificação de cada subconjunto da partição: G J ( B A) w( B A) G( B A) = i= 1 i i 13

24 O termo w( B i A) é o peso de ( B A) (cardinalidade relativa) de B i A em A: G i e representa o tamanho relativo w ( B A) i x U = J j= 1 x U mín mín ( µ ( x), µ ( x) ) Bi ( µ ( x), µ ( x) ) B j A A, em que 1 i J e U é o universo Antes de ser exibida a expressão que fornece o valor de ( B A) ambigüidade de classificação com a evidência G i, a B i A, é conveniente apresentar alguns conceitos importantes. Seja B i A uma evidência fuzzy. A possibilidade normalizada de classificação de um elemento na classe C k é π ( C B A) k i = máx 1 j J inclusão(b A,C ) i { inclusão(b A,C )} j k k, 1 i J e 1 k K O valor inclusão(bi A,C k ) é o grau de certeza da regra Se Bi e A, então Ck é calculado por:. Considerando a função mínimo como a T-norma do sistema, ele inclusão(b A,C i k ) = x U mín x U ( µ ( x), µ ( x) ) mín Bi A ( µ ( x) ) Bi A Ck = x U mín x U ( µ ( x), µ ( x), µ ( x) ) Bi mín ( µ ( x), µ ( x) ) Bi A A Ck Assim, ( C B A) = { π( C B A ),, π( C B A) } π K é a distribuição de i possibilidade normalizada no espaço de classes com a evidência nesta distribuição, define-se π ( C B A) * * ( C B A) = { π,, π } * π i 1 K K, em que dos elementos de ( C B A) i 1 i i * π 1 e * * π. De outra forma, π π + k. K i B i A. Baseando-se como a sua ordenação não-crescente. Assim, * π K são, respectivamente, o maior e o menor Com esses elementos, a ambigüidade de classificação com a evidência determinada por: k k 1 B i A é 14

25 * * ( i A) = ( π j π j 1 ) ln j G B K j= 1 * * * +, em que π K + 1 = 0 e π k πk+ 1 k A ambigüidade de classificação também é chamada de incerteza-u e é a única função que satisfaz os nove requisitos para uma medida possibilística de incerteza: simetria, expansibilidade, subaditividade, aditividade, continuidade, monotonicidade, mínimo, máximo e normalização (KLIR & MARIANO, 1987). Com estas definições, o algoritmo de indução de árvore fuzzy proposto por Yuan e Shaw pode ser assim descrito: 1. calcular a ambigüidade de classificação de cada atributo disponível e selecionar o de menor valor para ser o nó de decisão; ramificar o nó com todos os valores lingüísticos do atributo; 2. para cada ramo gerado, verificar para quais classes os graus de certeza do ramo inclusão (evidência, classe) são superiores ao limite de indução; caso isto ocorra, termine o ramo com uma folha com os rótulos dessas classes; se não for superior, continue a indução no ramo com os demais atributos ainda não utilizados; 3. retornar à etapa 1 até que nenhuma expansão seja possível. Para reduzir a ambigüidade de classificação durante a indução, Yuan e Shaw definiram um nível de significância para as evidências com o objetivo de filtrar as informações irrelevantes. Dada uma evidência fuzzy A com função de pertinência A ( x) µ, define-se a evidência fuzzy A com nível de significância α por A α com a seguinte função de pertinência: ( x), µ A ( ), µ ( ) µ A x µ A α ( x) = 0 A x α < α Em uma dada expansão, se nenhum atributo disponível reduzir a ambigüidade de classificação, Yuan e Shaw sugerem que seja formada uma folha com a classe de maior grau de certeza. Esta decisão não será seguida pois o interesse em árvores fuzzy neste estudo não é a geração da árvore de maior eficiência, mas uma árvore que realize 15

26 associações de boa qualidade envolvendo os atributos, seus valores lingüísticos e as classes de um problema Outros trabalhos sobre árvores de decisão fuzzy Apesar das pesquisas sobre árvores de decisão fuzzy não serem tão recentes, o primeiro trabalho foi em 1977 (CHANG & PAVLIDIS, 1977), a quantidade de trabalhos não é tão volumosa quanto as de outras técnicas híbridas oriundas de Sistemas Fuzzy, Redes Neurais e Computação Evolutiva. Alguns trabalhos são apresentados a seguir. Em geral, os modelos de construção de árvores fuzzy são inspirados nos modelos tradicionais de árvores. Desses, o que provavelmente mais influenciou as pesquisas foi o ID3. Apesar de o primeiro trabalho propondo o emprego da lógica fuzzy no ID3, o FID3, ser de RIVES (1990), o estudo que se popularizou foi o de WEBER (1992). No FID3, o conceito de entropia é fuzzificado e um elemento irá pertencer a um ramo se o seu grau de pertinência ao ramo for positivo. Outro trabalho que seguiu esta linha e que obteve grande destaque é o de JANIKOW (1998), que incorporou o tratamento a valores ausentes nos registros, manipulação de atributos contínuos e propôs diversas estratégias para se obter a classificação de um novo elemento pela árvore fuzzy. YEUNG et al. (2002) compararam a capacidade de generalização entre o ID3 e o FID3 em problemas com atributos numéricos e concluíram que o FID3 obteve melhores resultados. A implementação do FID3 no sistema fuzzy-genético desta pesquisa também foi levada em consideração. Entretanto, o fato de YUAN & SHAWN (1995) terem apresentado um modelo em que a avaliação dos atributos é essencialmente fuzzy fez com que o FID3 fosse preterido neste trabalho. WANG et al. (2001) e MARSALA & BOUCHON-MEUNIER (2003) apresentaram uma breve comparação entre os dois modelos. WANG et al. (2002) e LI et al. (2003) fizeram um estudo sobre diversos valores para o nível de significância das evidências e o estendeu para o modelo FID3. BOYEN & WEHENKEL (1995) apresentaram uma árvore fuzzy binária em que os particionamentos fuzzy são definidos dinamicamente de acordo com uma nova medida de avaliação de qualidade do par atributo/particionamento. A árvore é testada 16

27 em um problema da indústria elétrica e os autores defendem que o novo modelo é superior aos modelos tradicionais de árvores. A questão do particionamento dinâmico em árvores fuzzy binárias também é estudada por PENG & FLACH (2001). Em árvores fuzzy quaisquer, BENBRAHIM & BENSAID (2002) empregam o algoritmo de agrupamento fuzzy c-means para determinar o particionamento e defendem que esta proposta é superior a árvore C4.5 (cf. seção 4.2) podada pelas técnicas mais comuns. JANIKOW (1996a) emprega um algoritmo genético para otimização das partições dos domínios dos atributos durante a indução da árvore. KIM et al. (1999) também utilizam um algoritmo genético em uma árvore fuzzy procurando otimizar as funções de pertinências triangulares dos conjuntos fuzzy das evidências, obtidas a partir de análises de histogramas. Ainda considerando o particionamento dinâmico, podem ser citados os trabalhos de ZEIDLER & SCHLOSSER (1996), ITTNER et al. (1996) e MARSALA & BOUCHON-MEUNIER (1996). JANIKOW (1996b) apresenta uma estratégia de se realizar a inferência com uma árvore fuzzy, propondo o uso de exemplares. Em uma dada folha, um exemplar é o centróide dos seus elementos e o autor propõe algumas formas de emprego desses objetos-modelos na tomada de decisão. GUETOVA et al. (2002) propõem um modelo incremental de aprendizado de árvores fuzzy. A cada novo exemplo adicionado, o algoritmo verifica se há a necessidade de se alterar a estrutura da árvore já construída. Os autores argumentam que, em situações em que a árvore é induzida concomitante à chegada de novos dados, sua proposta economiza tempo de processamento ao evitar que uma nova árvore seja freqüentemente gerada. A aplicação estudada foi a de um sistema de personalização de acesso de um cliente a uma loja virtual. WANG et al. (2000) mostram uma técnica para otimizar o tamanho de uma árvore fuzzy FID3 ou a do modelo de Yuan e Shaw. Objetivando reduzir a quantidade de folhas e a profundidade da árvore, eles utilizam um algoritmo de agrupamento de ramos. Também preocupados em gerar árvores menores, DONG & KOTHARI (2001) modificaram o FID3 de modo que a avaliação de um atributo também incorpore o seu potencial de classificação. Este potencial é calculado em termos da suavidade da superfície formada pelas classes dos objetos em um dado ramo. Quanto mais suave é a superfície, maior é o potencial. Outra medida de avaliação é proposta por YEUNG et al. (1999). Chamada de grau de importância, ela informa a contribuição média de um 17

28 atributo e seus possíveis valores na classificação dos elementos do ramo. Quanto maior a contribuição do atributo, mais importante ele é. TSANG et al. (2000) propõem o uso de uma rede neural para aumentar a acurácia de uma árvore fuzzy FID3 com pesos sem prejudicar a sua compreensibilidade. Esses pesos refletem o grau de certeza de classificação de uma folha e os graus de importância de cada ramo e de suas evidências. A rede é utilizada para configurar os valores desses pesos após a indução da árvore. JENG et al. (1997) propõe a construção de uma árvore tradicional e a sua conversão para uma árvore fuzzy. Esta conversão fuzzifica as classes nas folhas e as ramificações. A classificação de um novo elemento ocorre com a defuzzificação do conjunto fuzzy-resposta. CHIANG & HSU (2002) empregam o algoritmo de agrupamento fuzzy c-means para definir os grupos em uma determinada folha e estes são usados na classificação de novos elementos. Eles propõem o nome árvore de classificação fuzzy para uma árvore assim induzida. LEE et al. (1999) propõem uma árvore capaz de lidar com atributos com valores fuzzy cujas funções de pertinência são automaticamente geradas durante a indução. MITRA et al. (2002) apresentam uma estratégia de iniciação de uma rede neuro-fuzzy por meio das regras extraídas de uma árvore fuzzy binária. Uma medida de qualidade de regras é gerada de modo que apenas as regras com melhor desempenho são aproveitadas. 18

29 3. O modelo fuzzy-genético 3.1. Gerando regras a partir dos dados numéricos O processo de geração de regras foi apresentado por EVSUKOFF et al. (1997) que aplicaram o esquema de decomposição proposto por KOSKO (1992) a regras TSK de ordem zero. A Tabela 3.1 ilustra a estrutura dessas regras para uma base de dados com dois atributos. Tabela 3.1. Regras fuzzy TSK Modelo Exemplo Takagi-Sugeno-Kang (TSK): Se x 1 é A i e x 2 é A j, então y i = f ( x 1, x 2 ) TSK de ordem zero: TSK de ordem zero decompostas: Se x 1 é A i e x 2 é A j, então y i = c ij Se x 1 é A i, então y i = c i Se x 2 é A j, então y i = c j Cada espaço de atributo foi normalizado e dividido em 5 partições. Estas podem ser definidas como funções de pertinência triangulares, trapezoidais ou multi-sigmoidais (DRAKOPOULOS, 1995), associadas aos valores lingüísticos pequeno, médio pequeno, médio, médio grande e grande, e são apresentadas nas Tabelas (Figuras ). Nestas figuras, peq, mpq, med, mgr e gra identificam os valores lingüísticos acima, respectivamente. Tabela 3.2. Funções de pertinência triangulares µ µ µ µ µ Funções de pertinência triangulares pequeno médiopequeno médio ( x) = máx{ 0,1 4 x } ( x) = máx{ 0,1 4 x 0,25 } ( x) = máx{ 0,1 4 x 0,5 } médiogrande grande ( x) = máx{ 0,1 4 x 0,75 } ( x) = máx{ 0,1 4 x 1 } 19

30 µ µ µ µ µ pequeno Tabela 3.3. Funções de pertinência trapezoidais ( x) médiopeque no médio ( x) médiogrand e grande ( x) Funções de pertinência trapezoidais 1 = máx ( x) máx = máx 1 ( x) { 0, (0,225 x) 8 } máx = máx 1 { 0, (x 0,1) 8 } { 0, (0,45 x ) 8 } { 0, (x 0,325) 8 } { 0, (0,675 x ) 8 } máx = máx 1 1 = máx { 0, (x 0,55) 8 } { 0, (0,90 x ) 8 } { 0, (x 0,775) 8 }, se x 0,1, caso contrário, se x, se x, caso, se x, caso, se x < 0,225, se x > 0,325, caso contrário < 0,45 > 0,55 contrário, se x < 0,675, se x > 0,775, caso contrário > 0,9 contrário Tabela 3.4. Funções de pertinência multi-sigmoidais Funções de pertinência multi-sigmoidais k = 354, µ µ µ µ µ pequeno ( ) médiopequeno médio ( ) médiogrande grande 1 = exp(k x x 3 ( ) 1 = exp(k x 0,25 x 3 1 = exp(k x 0,5 x 3 ( ) ( ) 1 = exp(k x 0,75 x 3 ) 1 = exp(k x 1 x 3 ) ) ) ) 20

31 1,00 0,75 0,50 peq mpq med mgr gra 0,25 0,00 0 0,25 0,5 0,75 1 Figura 3.1. Representação gráfica das funções de pertinência triangulares. 1,00 0,75 0,50 peq mpq med mgr gra 0,25 0,00 0 0,25 0,5 0,75 1 Figura 3.2. Representação gráfica das funções de pertinência trapezoidais 1,00 0,75 0,50 peq mpq med mgr gra 0,25 0,00 0 0,25 0,5 0,75 1 Figura 3.3. Representação gráfica das funções de pertinência multi-sigmoidais As regras são construídas de tal modo que suas respostas informam, além de uma classe, um valor de saída definido pelo conceito de grau de inclusão de conjuntos fuzzy (cf. seção 2.3). Dados M padrões de treinamento x m m m = ( x,...,x ) de classes y m = m m ( y1,..., y K ), 1 m M, o grau em que o conjunto X i, j (atributo i, valor lingüístico j) está incluído no conjunto da classe k, 1 k K, é dado por: 1 n 21

32 ϕ i kj = M µ x m= 1 M m= 1 ij µ m ( x ) x ij i y m ( x ) i m k Nas bases de dados estudadas, cada elemento pertence a uma única classe. Dessa forma, apenas um dos componentes do vetor y m possui valor 1 e os demais possuem valor 0. Portanto, as regras possuem a seguinte estrutura: Regra R i k, j : Se x i é X i, j então classe = k com influência π i k, j = ϕ i k, j em que k = 1,..., K, i = 1,..., n e j = 1,..., 5. Considerando uma base de dados com n atributos e K possíveis classes, a base de regras gerada por esse procedimento é formada por 5 K n elementos Classificação de novos elementos Dado um elemento ( x1,..., x n ), a determinação de sua classe requer a execução das seguintes etapas: 1. para cada atributo x i, combinar as respostas das regras relativas a uma mesma classe k 5 i ϕkj i j= 1 πk = 5 j= 1 µ µ xij xij ( x ) ( x ) i i, em que k = 1,..., K. 2. para cada classe, agregar as respostas não-nulas combinadas da etapa anterior pela seguinte função: i i { π π > 0, i 1,...,n } π k = mín k k = 3. a classe com o maior valor π k é atribuída ao elemento. 22

33 Estabeleceu-se que apenas as respostas não-nulas na segunda etapa sejam utilizadas pois o classificador final possivelmente não conterá todas as regras da base e haverá algum par atributo/classe sem representação. Assim, isto acarretará em uma resposta nula e esta significa que nenhuma classe será atribuída ao objeto que deseja-se classificar, situação que se procura evitar A aplicação do algoritmo genético Introdução Em muitos problemas, utilizar toda a base de regras na classificação de um novo elemento pode não ser conveniente pelos seguintes motivos, dentre outros: 1. a base de regras pode ser muito grande, causando uma demora excessiva na avaliação do elemento; 2. se a quantidade de elementos a serem classificados for muito grande, o tempo de processamento torna-se excessivamente alto; 3. a base de regras pode não produzir a classe correta devido à influência negativa de regras de pouca confiabilidade. O objetivo do algoritmo genético desta pesquisa é extrair um pequeno subconjunto de uma base de regras que utilize a menor quantidade de atributos e que tenha a maior acurácia possível. Ele é inspirado no sistema fuzzy-genético de ISHIBUCHI et al. (1996) que evolui regras de Mamdani Codificação e função de adequabilidade Cada subconjunto de regras é uma solução candidata e é representado por um cromossomo (Figura 3.4) utilizando o alfabeto binário { 0,1 }. Cada regra é representada por um gene no cromossomo. Se uma regra estiver presente em um subconjunto, seu gene correspondente recebe o alelo 1. Caso contrário, o alelo recebido é o 0. 23

Exibir mais