ESPÍNDOLA, ROGÉRIO PINTO Sistema Inteligente Para Classificação De Dados [Rio de Janeiro] 2004 X, 113 p. 29,7 cm (COPPE/UFRJ, D.Sc.

Tamanho: px
Começar a partir da página:

Download "ESPÍNDOLA, ROGÉRIO PINTO Sistema Inteligente Para Classificação De Dados [Rio de Janeiro] 2004 X, 113 p. 29,7 cm (COPPE/UFRJ, D.Sc."

Transcrição

1

2 ESPÍNDOLA, ROGÉRIO PINTO Sistema Inteligente Para Classificação De Dados [Rio de Janeiro] 2004 X, 113 p. 29,7 cm (COPPE/UFRJ, D.Sc., Engenharia Civil, 2004) Tese - Universidade Federal do Rio de Janeiro, COPPE 1. Classificação de dados 2. Aprendizado de Máquina 3. Ávores de decisão fuzzy 4. Algoritmos Genéticos I. COPPE/UFRJ II. Título (série) ii

3 À Hellem e à Luísa iii

4 AGRADECIMENTOS Ao meu orientador Nelson Ebecken pela oportunidade de ingressar no programa há 7 anos, fato que mudou minha vida, pela orientação direta e indireta, e pela amizade, boa-vontade, conselhos e incentivo; Ao professor Alexandre Evsukoff pelas sugestões e discussões sempre produtivas e pela amizade construída ao longo deste ano; Ao professor Luiz Landau pela participação na banca, pelo incentivo e por concederme a bolsa de estudos; Ao professor Eduardo Hruschka pela participação na banca e pelas sugestões oferecidas; Ao professor Hélio Barbosa pelas sugestões oferecidas e por mais uma vez participar de uma defesa minha; À ANP por ter financiado esta pesquisa e por incentivar as pesquisas na indústria de petróleo; Ao Programa de Engenharia Civil por fornecer ótimas condições de pesquisa a seu corpo discente; À Estela por sempre resolver questões burocráticas dos alunos com boa-vontade; À competente equipe do laboratório de informática pelo zelo e pelo auxílio dado aos usuários em muitas situações; Aos amigos de curso José Luiz, Lúcio e Maria Inês pela amizade a qualquer hora; Aos meus sogros Marluce e Roberto pelo amor e por tudo o que fizeram e fazem para o sucesso de nossa família; Aos meus pais pelo amor, pela dedicação, pelo incentivo e por tudo o que fizeram ao longo da minha existência; Aos meus dois eternos amores, Hellem e Luísa, que são a maior motivação para tudo o que faço, por me dar tudo o que de melhor alguém sonha receber. iv

5 Resumo da Tese apresentada à COPPE/UFRJ como parte dos requisitos necessários para a obtenção do grau de Doutor em Ciências (D.Sc.) SISTEMA INTELIGENTE PARA CLASSIFICAÇÃO DE DADOS Rogério Pinto Espíndola Dezembro/2004 Orientador: Nelson Francisco Favilla Ebecken Programa: Engenharia Civil Este trabalho apresenta um sistema que utiliza técnicas de Inteligência Artificial para a classificação de dados. Ele constitui-se de um algoritmo genético que otimiza bases de regras fuzzy do modelo Takagi-Sugeno-Kang para classificação. Este algoritmo genético possui características especiais tais como iniciação por árvores de decisão fuzzy, recombinação booleana, reiniciação de indivíduos e controle de diversidade. Além da classificação pretende-se realizar a seleção dos atributos relevantes de um problema e produzir classificadores compreensíveis. Diversos problemas são estudados para avaliar a qualidade do modelo e o modelo de árvores de decisão C4.5 v.8 é utilizado para comparação dos resultados. v

6 Abstract of Thesis presented to COPPE/UFRJ as a partial fulfillment of the requirements for the degree of Doctor of Science (D.Sc.) INTELLIGENT SYSTEM FOR DATA CLASSIFICATION Rogério Pinto Espíndola December/2004 Advisor: Nelson Francisco Favilla Ebecken Department: Civil Engineering This research presents an intelligent system which employs Artificial Intelligence techniques to perform data classification. The system is a genetic algorithm which optimizes Takagi-Sugeno-Kang fuzzy rule bases for classification. This genetic algorithm has special features such that fuzzy decision tree initiation, boolean recombination, restart of individuals and genetic diversity control. Beyond the classification, it is our intention to perform feature selection and to produce comprehensible classifiers. Some problems are approached in order to assess the quality of the system and the C4.5 v.8 decision tree model is employed to have its results compared. vi

7 Índice 1. Introdução Objetivos Relevância Contribuição Árvores de decisão fuzzy Introdução Árvores de decisão fuzzy A árvore fuzzy deste trabalho Outros trabalhos sobre árvores de decisão fuzzy O modelo fuzzy-genético Gerando regras a partir dos dados numéricos Classificação de novos elementos A aplicação do algoritmo genético Introdução Codificação e função de adeqüabilidade Os operadores genéticos A iniciação populacional por árvore fuzzy Problemas estudados Descrições dos problemas O ambiente WEKA e as formas de teste dos modelos A avaliação de classificadores Configurações do sistema fuzzy-genético Resultados obtidos Considerações iniciais As árvores fuzzy induzidas As conversões de árvores fuzzy para regras TSK de ordem zero Indivíduos-base vs. indivíduos gerados aleatoriamente As recombinações O controle de diversidade Os classificadores encontrados Conclusões Considerações finais Pesquisas futuras Referências bibliográficas Anexo vii

8 Índice de tabelas Tabela 3.1. Regras fuzzy TSK Tabela 3.2. Funções de pertinência triangulares Tabela 3.3. Funções de pertinência trapezoidais Tabela 3.4. Funções de pertinência multi-sigmoidais Tabela 3.5. Operações realizadas pela recombinação booleana Tabela 4.1. Problemas estudados Tabela 4.2. Propriedades das bases de dados dos problemas estudados Tabela 4.3. Parâmetros do sistema fuzzy-genético e seus domínios Tabela 4.4. Configuração do sistema fuzzy-genético Tabela 4.5. Significados das abreviações que serão utilizadas Tabela 5.1. Tamanhos das bases de regras utilizadas Tabela 5.2. Árvores fuzzy e C4.5 médias Tabela 5.3. Desempenhos das árvores fuzzy com limite de indução 0, Tabela 5.4. Melhores indivíduos aleatórios vs. conversões das árvores fuzzy Tabela A.1. Árvores fuzzy obtidas em cada etapa da validação cruzada Tabela A.2. Árvores C4.5 obtidas em cada etapa da validação Tabela A.3. Árvores fuzzy e suas conversões em regras TSK (médias) Tabela A.4. Características das gerações iniciais Tabela A.5. Resultados médios ndiv Tabela A.6. Adeqüabilidades médias com e sem controle de diversidade Tabela A.7. abal Classificadores finais médios Tabela A.8. bala Classificadores finais médios Tabela A.9. carr Classificadores finais médios Tabela A.10. cred Classificadores finais médios Tabela A.11. figa Classificadores finais médios Tabela A.12. g945 Classificadores finais médios Tabela A.13. indi Classificadores finais médios Tabela A.14. iono Classificadores finais médios Tabela A.15. iris Classificadores finais médios Tabela A.16. leve Classificadores finais médios Tabela A.17. mam1 Classificadores finais médios Tabela A.18. mam2 Classificadores finais médios Tabela A.19. mete Classificadores finais médios Tabela A.20. vidr Classificadores finais médios Tabela A.21. vinh Classificadores finais médios Tabela A.22. C4.5 Classificadores finais médios viii

9 Índice de figuras Figura 1.1. Objetivos da pesquisa... 2 Figura 1.2. Como a lógica fuzzy atua em algoritmos genéticos... 5 Figura 1.3. Como os algoritmos genéticos atuam em sistemas fuzzy... 6 Figura 2.1. Exemplo de árvore de decisão para a classificação de plantas íris... 9 Figura 2.2. Exemplo de árvore de decisão fuzzy para a classificação de plantas íris Figura 3.1. Representação gráfica das funções de pertinência triangulares Figura 3.2. Representação gráfica das funções de pertinência trapezoidais Figura 3.3. Representação gráfica das funções de pertinência multi-sigmoidais Figura 3.4. Um indivíduo ou solução candidata Figura 3.5. Exemplo de aplicação da recombinação booleana do tipo Figura 3.6. Exemplo de aplicação da recombinação booleana Figura 3.7. Exemplo de geração de uma solução sem regras Figura 4.1. Distribuições de classes dos problemas estudados Figura 4.2. Estrutura de uma matriz de confusão Figura 4.3. Relação de custo/benefício entre precisão e sensitividade Figura 4.4. Espaço ROC e alguns classificadores discretos Figura 4.5. Curvas ROC de alguns classificadores discretos Figura 4.6. Curvas ROC de alguns classificadores probabilísticos Figura 4.7. Áreas sob as curvas ROC de alguns classificadores discretos Figura 5.1. Quantidades médias de folhas das árvores produzidas Figura 5.2. Acurácias médias das árvores Figura 5.3. Diferenças de regras entre os indivíduos-base e as árvores fuzzy Figura 5.4. Comportamento das conversões das árvores fuzzy (quantidade de regras).. 52 Figura 5.5. Indivíduos-base vs. expectativa aleatória (quantidade de regras) Figura 5.6. Diferenças de acurácias entre os indivíduos-base e as árvores fuzzy Figura 5.7. Comportamento das conversões das árvores fuzzy (acurácia) Figura 5.8. Indivíduos-base vs. melhores indivíduos aleatórios (regras) Figura 5.9. Indivíduos-base vs. melhores indivíduos aleatórios (acurácias) Figura Confrontos entre indivíduos-base e melhores indivíduos aleatórios Figura Melhores indivíduos gerados por árvore fuzzy vs. melhores indivíduos aleatórios (acurácia) ix

10 Figura Comportamento das iniciações por árvores fuzzy vs. iniciações aleatórias (acurácias médias dos melhores indivíduos) Figura Melhores indivíduos gerados por árvore fuzzy vs. melhores indivíduos aleatórios (regras) Figura Iniciações por árvores fuzzy vs. aleatórias (totais de alelos 1) Figura Iniciações por árvores fuzzy vs. aleatórias (diversidade média) Figura Comparação das recombinações em termos de regras dos classificadores 61 Figura Comparação das recombinações em termos de diversidades médias Figura Comparação das recombinações em termos de reinícios Figura Comparação das recombinações em termos de atributos utilizados Figura Comparação das recombinações em termos de acurácia Figura Atuação do controle de diversidade Figura Médias das avaliações para todas as configurações do problema abal Figura Médias das avaliações para todas as configurações do problema bala Figura Médias das avaliações para todas as configurações do problema carr Figura Médias das avaliações para todas as configurações do problema cred Figura Médias das avaliações para todas as configurações do problema figa Figura Médias das avaliações para todas as configurações do problema g Figura Médias das avaliações para todas as configurações do problema indi Figura Médias das avaliações para todas as configurações do problema iono Figura Médias das avaliações para todas as configurações do problema iris Figura Médias das avaliações para todas as configurações do problema leve Figura Médias das avaliações para todas as configurações do problema mam Figura Médias das avaliações para todas as configurações do problema mam Figura Médias das avaliações para todas as configurações do problema mete Figura Médias das avaliações para todas as configurações do problema vidr Figura Médias das avaliações para todas as configurações do problema vinh Figura Comparação de classificadores fuzzy e árvores C4.5 (acurácia) Figura Comparação de classificadores fuzzy e árvores C4.5 (AUC1) Figura Comparação de classificadores fuzzy e árvores C4.5 (GSE.méd2) x

11 1. Introdução 1.1. Objetivos O objetivo do presente trabalho é desenvolver e implementar uma estratégia eficiente para a classificação de dados da indústria do petróleo. O problema de classificação de dados encontra grande aplicação em diversas áreas, tais como a classificação de óleos, de rochas e de imagens, determinação de limites de reservatórios, dentre outras. Como exemplos dessas aplicações, podem ser citadas as seguintes atividades: a descoberta das condições de prisão de uma coluna de perfuração a partir de uma extensa base de dados de histórico de perfuração; a detecção de derramamentos de óleos na superfície marinha por meio de imagens de satélites; a identificação das características que levam um projeto de pesquisa e desenvolvimento ser bem sucedido ou não; a classificação de óleos a partir de dados de cromatografia gasosa; a identificação de litofácies de poços de petróleo através de dados sísmicos; a determinação da localização ótima de um novo poço através de dados de sísmica tridimensional; a determinação dos limites de um reservatório de gás natural por meio de dados geoquímicos de superfície; estudos de tarifação de gás natural para oferecer preço compatível com o setor industrial, levando em consideração o combustível a ser substituído, características de localização e políticas, dentre outros fatores; a avaliação da viabilidade econômica de um reservatório de gás natural. As pesquisas de novos classificadores têm encontrado motivação não só na precisão da classificação dos dados como também na aquisição e representação de conhecimentos associados à classificação (Figura 1.1). Este trabalho propõe uma metodologia para aumentar a eficiência de um algoritmo genético aplicado a uma base de regras fuzzy de classificação (ESPÍNDOLA, 1

12 1999). As características deste modelo são detalhadamente apresentadas no capítulo 3. A nova metodologia pretende: realizar a tarefa de seleção de atributos simultaneamente à de classificação ao avaliar as soluções candidatas segundo esta característica; gerar classificadores fuzzy robustos, eficazes e compreensíveis. Classificação BANCO DE DADOS REGRAS FUZZY Redução dimensional Aquisição de conhecimentos Figura 1.1. Objetivos da pesquisa Para atingí-los, o algoritmo genético incorporou as seguintes atividades: controle da diversidade genética populacional durante o processo evolutivo; emprego de uma árvore de decisão fuzzy para gerar indivíduos iniciais de boa qualidade; emprego de novos operadores genéticos. A partir de uma base de dados, um conjunto de regras fuzzy é gerado e o algoritmo genético procura identificar um subconjunto de regras que seja o mais preciso e compacto possível, além de empregar poucos atributos, sendo este o melhor indivíduo. A técnica de árvores de decisão é utilizada para encontrar um indivíduo de boa adeqüabilidade em pouco tempo e empregá-lo durante a iniciação da primeira geração de indivíduos, fazendo com que uma menor quantidade de gerações sejam utilizadas pelo algoritmo genético para encontrar o melhor indivíduo. Do indivíduo inicial obtido da árvore, não é exigida muita acurácia visto que o algoritmo genético poderá encontrar indivíduos de grande adeqüabilidade muitos acertos com poucas quantidades de regras e de atributos. Entretanto, há maior rigor 2

13 quanto à quantidade de regras. Quanto menor a quantidade de regras, mais rapidamente é realizada a avaliação de um indivíduo, etapa de maior morosidade de um algoritmo genético. Este ganho em rapidez se tornará maior à medida que o tamanho de uma base de dados aumenta, seja na quantidade de registros ou na quantidade de atributos. Na seção seguinte, a importância da tarefa de classificação é apresentada, bem como as das principais técnicas de inteligência artificial utilizadas para abordá-la Relevância O aprendizado de máquina envolve o estudo e a modelagem computacional dos processos de aprendizado em suas várias manifestações (MICHALSKI et al., 1984), isto é, abrange procedimentos computacionais automáticos que aprendem uma determinada tarefa a partir de uma série de exemplos (MITCHELL, 1999, DIETTERICH, 2003). A classificação é uma importante tarefa do aprendizado de máquina. Seu objetivo é fazer previsões ou tomar decisões baseando-se na informação disponível sobre um problema (GORDON, 1991, MICHIE et al., 1994). Em outras palavras, a classificação atribui classes preexistentes a novos elementos cujas classes são desconhecidas. Existem diversas situações em que a tarefa de classificação se faz importante, tais como diagnósticos de doenças, diagnósticos de falhas em peças mecânicas e sistemas, reconhecimento de imagens e análises de riscos de investimentos. Diversas técnicas computacionais podem ser empregadas para a execução da classificação, tais como os sistemas baseados em regras (LIAO, 2004), as árvores de decisão (QUINLAN, 1993), as redes neurais artificiais (HAYKIN, 1999) e os métodos estatísticos (HOLMSTRÖM et al., 1996). Estas são, provavelmente, as mais comuns. Entretanto, outras técnicas também têm sido bastante utilizadas e estão ocupando papéis de destaque na produção de sistemas classificadores. A computação evolucionária (SCHOENAUER & MICHALEWICZ, 1997), por exemplo, tem sido empregada tanto para descobrir relações ótimas entre os atributos e as classes de um problema, quanto para otimizar o desempenho e/ou os parâmetros de outras técnicas de aprendizado de máquina (COLLARD & FRANCISCI, 2001). A área mais difundida da computação evolucionária é a de algoritmos genéticos (GOLDBERG, 1989). Isto se deve ao fato de constituírem uma técnica de otimização aplicável a qualquer situação e capaz de abordar problemas bastante complexos de maneira eficiente, êxito este que muitos outros 3

14 métodos não obtêm seja pela dificuldade de tratamento ou pela impossibilidade de abordagem. A eficiência de um método de aprendizado de máquina não está apenas caracterizada pela sua capacidade de resolver um problema. A representação do conhecimento adquirido a partir de uma base de dados também ocupa papel de destaque (WEBB, 2002, ASKIRA-GELMAN, 1998). Por exemplo, ela é responsável pelo correto emprego do sistema classificador e por permitir uma maior compreensão sobre o problema estudado. Um dos meios mais eficientes de representação de conhecimento é o emprego de um conjunto de regras ou base de regras (STEFANOWSKI, 2004). Uma regra é uma implicação lógica: é composta de uma parte chamada antecedente que descreve as condições da regra e outra parte chamada conseqüente que realiza a conclusão da informação. A parte antecedente é formada por argumentos agrupados por operadores lógicos (e, ou, não etc.), gerando uma expressão lógica. Se essa expressão for verdadeira, isto é, se as condições da regra forem satisfeitas, então a parte conseqüente determinará a ação a ser executada. Além das medidas de relacionamento entre as partes antecedente e conseqüente das regras tais como o grau de certeza, o grau de interesse e a acurácia (YAO & ZHONG, 1999) a qualidade interpretativa de uma base de regras também pode ser avaliada pela quantidade de condições e conclusões presentes na estrutura de representação. Neste caso, quanto mais elementos uma regra possuir mais difícil é o seu entendimento. Exemplificando, uma regra cujo antecedente possua apenas duas condições é melhor compreendida que outra com dezenas de condições. Outros fatores importantes são a quantidade de regras da base, a quantidade de atributos utilizados pelas regras e a presença de qualificadores lingüísticos para descrevê-los. Uma regra que utilize esses elementos lingüísticos é nitidamente mais compreensível que outra que trabalhe com comparações numéricas, já que grande parte do conhecimento humano está armazenada em forma lingüística (GUILLAUME, 2001, NAKASHIMA et al., 2003). A transformação de informações numéricas precisas das bases de dados em informações lingüísticas imprecisas ocorre com sucesso por meio das técnicas originadas da teoria dos conjuntos fuzzy (PEDRYCZ & GOMIDE, 1998), originando os sistemas baseados em regras fuzzy. O seu emprego também se faz importante pois a grande maioria dos problemas contém informações imprecisas e ambíguas, seja pelo 4

15 fato de não existirem medidas adequadas ou porque estas não são devidamente realizadas. Uma característica interessante dos sistemas fuzzy é que eles são facilmente combinados a outras técnicas. Dentre as mais populares combinações está a com algoritmos genéticos e elas ocorrem de diversas maneiras, freqüentemente com sucesso (CORDÓN et al., 2004). Construir modelos híbridos que aliem as características destas duas técnicas significa desenvolver um dos mais robustos sistemas de aprendizado de máquina. Os conceitos da teoria dos conjuntos fuzzy têm sido aplicados em algoritmos genéticos para modelar novas formas de representação cromossômica e novos operadores genéticos, para avaliar a adeqüabilidade dos indivíduos, para controlar os parâmetros durante a evolução e para estudar os relacionamentos entre os parâmetros (Figura 1.2), dentre outras atividades (HERRERA et al., 1995a, HERRERA & LOZANO, 1999, LEE & TAKAGI, 1993, SUBBU & BONISSONE, 2003). Controle de parâmetros ALGORITMOS GENÉTICOS Representação cromossômica Operadores fuzzy Funções de adeqüabilidade fuzzy Critério de parada Figura 1.2. Como a lógica fuzzy atua em algoritmos genéticos Por outro lado, muitos algoritmos genéticos têm sido desenvolvidos para otimizar o desempenho de sistemas baseados em regras fuzzy aplicados a diversas tarefas, tais como controle e classificação (WONG e LIN, 1997, YUAN e ZHUANG, 1996). Destacam-se também inúmeros trabalhos sobre projeto, aprendizado e ajuste de parâmetros de bases de regras fuzzy tais como funções de pertinência, estrutura de regras e tamanho da base (Figura 1.3) por algoritmos genéticos (CORDÓN et al., 1996, HERRERA et al., 1995b). 5

16 Seguindo esta última linha de pesquisa, ESPÍNDOLA & EBECKEN (2000) apresentaram um algoritmo genético que seleciona um subconjunto de uma base de regras fuzzy de classificação. Estas regras são do modelo Takagi-Sugeno-Kang (TSK) de ordem zero decompostas (EVSUKOFF et al., 1997). São de ordem zero por produzirem como respostas valores independentes das variáveis de entrada em vez de uma função destas. São decompostas por serem originadas da divisão das regras originais, que possuem uma condição para cada atributo, com sua parte antecedente sendo formada por apenas uma condição. Em outras palavras, seja uma regra TSK com n condições na parte antecedente. A partir dela são geradas n regras possuindo a mesma conclusão, com cada regra utilizando uma das condições da regra original (cf. seção 3.1). Determina ção de conjuntos SISTEMAS FUZZY Ajuste de parâmetros Gera ção de bases de regras Otimização de bases de regras Figura 1.3. Como os algoritmos genéticos atuam em sistemas fuzzy A importância da classificação cresce à medida que o volume de dados armazenados aumenta, situação bastante comum atualmente. Conseqüentemente, a manipulação dos dados e a descoberta de informações que neles estão contidas implicitamente (FAYYAD et al., 1996) tornam-se mais difíceis. Estas dificuldades não estão somente associadas à grande quantidade de elementos (registros) que representam diferentes situações, mas também à enorme quantidade de atributos (campos) necessários para uma descrição dessas situações. A manipulação dos dados envolve também outras questões cruciais para a escolha de uma metodologia (PYLE, 1999), tais como saber de que maneira as freqüentes 6

17 irregularidades presentes nos dados inconsistência de valores e atributos, campos vazios, dentre outras devem ser abordadas. Ao se projetar uma base de dados para um estudo, dificilmente são conhecidos com exatidão os atributos suficientes e necessários para a sua correta descrição. Freqüentemente, os registros de uma base de dados são utilizados em diversos estudos e cada um faz uso de um determinado subgrupo dos atributos. Assim, para uma dada pesquisa, alguns atributos são relevantes e outros não, sendo estes últimos caracterizados como irrelevantes, aqueles que não influenciam a decisão de maneira alguma, ou redundantes, aqueles que não trazem algo novo para a tomada de decisão (DASH & LIU, 1997, BLUM & LANGLEY, 1997). Como a quantidade de atributos utilizada tem grande influência nos algoritmos de aprendizado, a identificação daqueles atributos realmente importantes para uma aplicação torna-se um fator de extrema importância para que ela obtenha sucesso. A exclusão, no estudo, de atributos irrelevantes ou redundantes quase sempre melhora a qualidade dos resultados obtidos. Em muitas situações, aqueles ocultam informações interessantes presentes nos outros atributos (PIRAMUTHU, 2004). Considerando a tarefa de classificação, YANG e HONAVAR (1997) afirmam que a escolha de um subconjunto de atributos afeta, dentre outros fatores, a precisão de um sistema classificador, o seu custo, o tempo e a quantidade de exemplos necessários para o seu aprendizado. Esta atividade compreende uma tarefa correlata a de classificação conhecida como seleção de atributos. A seleção de atributos pode ser definida, segundo LIU e MOTODA (1998), como o processo de escolha de um subconjunto de atributos ótimo de acordo com algum critério. Este critério pode ser, por exemplo, a melhor estimativa de acurácia do classificador que o irá utilizar. A seleção de atributos pode ser vista como um problema de busca cujo espaço é formado por 2 n soluções candidatas, sendo n a quantidade de atributos de uma base de dados. Sendo um problema de busca, faz-se necessário definir três elementos: (a) o procedimento de geração de uma nova solução, (b) uma função de avaliação de soluções e (c) um critério de parada da busca. Sob esta ótica, a seleção de atributos pode ser abordada pelos algoritmos tradicionais de busca heurística (KITTLER, 1978, KOHAVI, 1995a), estratégia inviável quando n é muito grande, pelos algoritmos genéticos (YANG & HONAVAR, 1997, CASILLAS et al., 2001, MARTIN-BAUTISTA & VILA, 1999), além das redes neurais artificiais (SETIONO & LIU, 1997, CASTELLANO & FANELLI, 1999) dentre outras 7

18 técnicas. Vale destacar os trabalhos de BLUM & LANGLEY (1997), HALL & HOLMES (2003) e PIRAMUTHU (2004), que realizaram comparações entre diversos algoritmos de seleção de atributos Contribuição Este trabalho procura desenvolver uma metodologia capaz de gerar automaticamente uma base de conhecimentos compreensível a partir da base de dados de um problema e realizar a tarefa de classificação de forma eficiente. Para a realização de tal proposta, vários estudos foram realizados e permitiram a constatação do ineditismo das seguintes características: a seleção de um subconjunto de regras fuzzy TSK para classificação por meio de um algoritmo genético multi-objetivo; a iniciação do algoritmo genético por meio de árvores fuzzy; o emprego da recombinação booleana; a estratégia de controle de diversidade utilizada. Os capítulos 2 e 3 apresentam mais detalhes a respeito de como estas características foram implementadas. O capítulo 4 discute os problemas estudados e as formas de realização dos testes. O capítulo 5 apresenta a análise detalhada dos resultados obtidos e o último capítulo traz as considerações finais e as propostas de pesquisas futuras. 8

19 2. Árvores de decisão fuzzy 2.1. Introdução As árvores de decisão constituem uma técnica bastante popular na realização da tarefa de classificação devido às seguintes características (KOTHARI & DONG, 2001): são geradas rapidamente; são facilmente aplicáveis em domínios numéricos ou não; suas decisões são facilmente compreendidas. Dado um espaço amostral de um problema, uma árvore de decisão (BREIMAN et al., 1984) procura representar as informações nele contidas (Figura 2.1). Quanto maior o poder de predição de uma árvore, maior é a sua fidelidade à amostra analisada. Comprimento da pétala 2,0 Largura da pétala 1 < 1,6 1,6 Comprimento da sépala Comprimento da pétala < 5,0 5,0 < 4,9 4, Figura 2.1. Exemplo de árvore de decisão para a classificação de plantas íris Inicialmente, um atributo é selecionado de modo que maximize alguma medida de progresso de predição ou outra arbitrada pelo pesquisador (critério de ramificação). 9

20 Após a seleção do atributo, define-se em quantas partes a base de dados será dividida e, então, são identificados em quais valores do domínio do atributo ocorrerá o particionamento. Este constitui-se de testes lógicos, sendo chamado de nó de decisão. Em especial, este primeiro nó de decisão é chamado de nó-raiz da árvore. Para cada subconjunto de dados gerado pelo nó-raiz, o processo é repetido, recursivamente, até que alguma instrução determine a interrupção do processo (critério de parada), formando os nós-folhas. Em árvores de classificação, estes nós-folhas informam as classes de um problema. O caminho que leva o nó-raiz a um nó-folha é chamado de ramo. Assim como o critério de ramificação, o critério de parada também pode ser definido segundo a vontade do pesquisador. O mais comum é que se interrompa a indução quando não houver mais progresso se for feita nova ramificação ou quando um subconjunto a ser criado for formado por apenas um registro. Neste segundo caso, a árvore gerada pode se tornar muito complexa (com muitas ramificações e, portanto, nós) e, freqüentemente, com alta taxa de erro na predição (QUINLAN, 1993). Para evitar esta situação ou se interrompe o processo antes que a árvore se torne muito complexa, ou permite-se que a árvore seja criada até o fim para depois remover parte de sua estrutura. No primeiro caso, chamado de parada ou pré-poda, não se perde tempo construindo uma estrutura que não será aproveitada. A grande dificuldade desta estratégia é determinar o momento exato da interrupção pois é possível que se pare antes ou depois do ponto ideal. No segundo caso, chamado de poda ou pós-poda, há um consumo maior de tempo para se gerar toda a árvore, algumas vezes substancial. QUINLAN (1993) defende que a maior exploração da base de dados freqüentemente compensa esta desvantagem, permitindo o encontro de subárvores mais confiáveis, isto é, com maior poder de predição. Independente da estratégia escolhida, as vantagens de podar uma árvore podem ser grandes (KIM & KOEHLER, 1995, ESPOSITO et al., 1997). Além de ter sua complexidade reduzida, a árvore encontrada possivelmente tem o seu poder de predição aumentado e torna-se mais compreensível quando seus ramos são convertidos em regras. Cada ramo, desde o nó-raiz até seu nó-folha, pode ser transformado em uma regra em que a parte antecedente é formada pela conjunção lógica dos nós de decisão e a conclusão é a classe presente no nó-folha. Dois dos mais populares modelos de indução de árvores são o ID3 (QUINLAN, 1986) e o CART (BREIMAN et al., 1984). Em poucas palavras, o ID3 utiliza a medida 10

21 de ganho de informação para avaliar os atributos, com domínios discretos, escolhendo aquele que a maximize. Esta medida é baseada no conceito de entropia, que informa o grau de impureza de uma informação ou, nesta pesquisa, o grau de diversidade de classes em um conjunto de registros. Quanto menor a entropia, maior é o ganho de informação. Após a escolha do atributo que minimize a entropia dos dados, o nó de decisão é ramificado em todos os valores do domínio do atributo. Uma folha é criada quando um dado ramo só possuir elementos pertencentes a uma mesma classe ou quando todos os atributos já tiverem sido utilizados. O CART trabalha com atributos contínuos e produz árvores binárias, isto é, aquelas em que cada nó de decisão possui apenas dois ramos, definindo dinamicamente de que maneira é realizado o particionamento. Os particionamentos dos atributos e a escolha de um deles para a ramificação da árvore são atividades dependentes entre si. O par atributo/particionamento escolhido é aquele que minimize a impureza nos dados, calculada pelo índice GINI. No CART, um ramo pode escolher várias vezes um mesmo atributo para a ramificação, o que prejudica a sua interpretação. Uma árvore é desenvolvida até que a impureza dos dados não consiga ser reduzida e depois é realizada a poda baseando-se na complexidade da árvore (profundidade e quantidade de nós) e nos erros cometidos durante o treinamento Árvores de decisão fuzzy Embora eficiente na tomada de decisões em diversas áreas, as árvores de decisão são inadequadas para expressar incertezas e ambigüidades inerentes ao pensamento humano (QUINLAN, 1987). Pequenas variações nos valores de um atributo podem resultar em uma classificação diferente e/ou inesperada (QUINLAN, 1986). Para lidar com essa dificuldade, o emprego de árvores de decisão com a teoria dos conjuntos fuzzy tem sido realizado. De modo simplificado, árvores de decisão fuzzy aplicam a lógica fuzzy na formulação dos nós de decisão nós de decisão fuzzy e das conclusões definidas nos nós-folhas. Além disso, a inferência realizada pela árvore também é fuzzy. Elementos lingüísticos definidos por conjuntos fuzzy são utilizados para a ramificação da árvore, em vez dos valores originais dos domínios dos atributos (Figura 2.2). Diferentemente do que ocorre com as árvores de decisão clássicas, nas árvores 11

22 fuzzy existem vários caminhos a serem percorridos para se realizar a predição de um elemento. Assim, diversos nós-folhas realizam a predição com diferentes graus de certeza. Comprimento da pétala pequeno médio Largura da pétala 1 Comprimento da sépala média grande Comprimento da pétala médio grande médio grande Figura 2.2. Exemplo de árvore de decisão fuzzy para a classificação de plantas íris Além disso, um nó-folha pode realizar mais de uma conclusão. Então, é necessário definir uma estratégia de inferência para a árvore observando a diversidade de conclusões presente em cada nó-folha e a diversidade de ramos que geraram uma resposta. E se a resposta da árvore for um conjunto fuzzy e precisar ser defuzzificada, um procedimento adicional precisará ser definido também A árvore fuzzy deste trabalho A árvore fuzzy de classificação utilizada neste estudo é a proposta por YUAN e SHAWN (1995). O seu critério de ramificação seleciona o atributo que minimize a medida de ambigüidade de classificação. O critério de parada é atingido e um nó-folha 12

23 é criado quando não houver mais atributos que reduzam esta medida ou quando algum dos graus de certeza do ramo (um para cada classe), ao realizar a classificação de seus elementos, for superior a um valor pré-estabelecido chamado de limite de indução. Quando este caso ocorrer, a classe com o maior dos graus de certeza será utilizada na classificação. Este modelo de árvore de decisão foi escolhido devido à incorporação de incertezas cognitivas (KLIR, 1987) no processo de indução e porque os graus de certeza dos ramos e as respostas das regras do sistema fuzzy-genético são definidos pelo mesmo conceito, fuzzy subsethood, que informa o grau de inclusão de um conjunto em outro. Nas fórmulas apresentadas a seguir, a palavra inclusão indica o uso deste conceito. A escolha de um atributo para constituir um nó de decisão se dá pela sua ambigüidade de classificação: quanto menor ela for, melhor o atributo será. Antes de apresentar a definição de ambigüidade de classificação de um atributo, é indispensável a apresentação de algumas definições preliminares. Uma evidência fuzzy é um subconjunto fuzzy definido no espaço dos atributos que representa os valores lingüísticos tomados por um ou mais atributos. Por exemplo, considerando um problema com atributos Pressão e Temperatura, a evidência fuzzy Quente Baixa está associada às condições Temperatura é Quente e Pressão é Baixa. Dada uma evidência fuzzy A e um conjunto de evidências B { B, K, } partição fuzzy B em A é definida por B A { B A,, B A} 1 J =, uma 1 B J = K. Cada objeto em A é particionado com B i com pertinência µ, 1 i J. Considerando o exemplo do B i A parágrafo anterior, sendo A a evidência fuzzy Temperatura é Quente e B = { Pressão Baixa, Pressão Média, Pressão Alta}, então a partição B A é o conjunto { Baixa Quente, Média Quente, Alta Quente} B A = B.. Quando A é o universo dos objetos, Assim, a ambigüidade de classificação dada uma partição B na evidência A é denotada por ( B A) G e é definida pela média ponderada das ambigüidades de classificação de cada subconjunto da partição: G J ( B A) w( B A) G( B A) = i= 1 i i 13

24 O termo w( B i A) é o peso de ( B A) (cardinalidade relativa) de B i A em A: G i e representa o tamanho relativo w ( B A) i x U = J j= 1 x U mín mín ( µ ( x), µ ( x) ) Bi ( µ ( x), µ ( x) ) B j A A, em que 1 i J e U é o universo Antes de ser exibida a expressão que fornece o valor de ( B A) ambigüidade de classificação com a evidência G i, a B i A, é conveniente apresentar alguns conceitos importantes. Seja B i A uma evidência fuzzy. A possibilidade normalizada de classificação de um elemento na classe C k é π ( C B A) k i = máx 1 j J inclusão(b A,C ) i { inclusão(b A,C )} j k k, 1 i J e 1 k K O valor inclusão(bi A,C k ) é o grau de certeza da regra Se Bi e A, então Ck é calculado por:. Considerando a função mínimo como a T-norma do sistema, ele inclusão(b A,C i k ) = x U mín x U ( µ ( x), µ ( x) ) mín Bi A ( µ ( x) ) Bi A Ck = x U mín x U ( µ ( x), µ ( x), µ ( x) ) Bi mín ( µ ( x), µ ( x) ) Bi A A Ck Assim, ( C B A) = { π( C B A ),, π( C B A) } π K é a distribuição de i possibilidade normalizada no espaço de classes com a evidência nesta distribuição, define-se π ( C B A) * * ( C B A) = { π,, π } * π i 1 K K, em que dos elementos de ( C B A) i 1 i i * π 1 e * * π. De outra forma, π π + k. K i B i A. Baseando-se como a sua ordenação não-crescente. Assim, * π K são, respectivamente, o maior e o menor Com esses elementos, a ambigüidade de classificação com a evidência determinada por: k k 1 B i A é 14

25 * * ( i A) = ( π j π j 1 ) ln j G B K j= 1 * * * +, em que π K + 1 = 0 e π k πk+ 1 k A ambigüidade de classificação também é chamada de incerteza-u e é a única função que satisfaz os nove requisitos para uma medida possibilística de incerteza: simetria, expansibilidade, subaditividade, aditividade, continuidade, monotonicidade, mínimo, máximo e normalização (KLIR & MARIANO, 1987). Com estas definições, o algoritmo de indução de árvore fuzzy proposto por Yuan e Shaw pode ser assim descrito: 1. calcular a ambigüidade de classificação de cada atributo disponível e selecionar o de menor valor para ser o nó de decisão; ramificar o nó com todos os valores lingüísticos do atributo; 2. para cada ramo gerado, verificar para quais classes os graus de certeza do ramo inclusão (evidência, classe) são superiores ao limite de indução; caso isto ocorra, termine o ramo com uma folha com os rótulos dessas classes; se não for superior, continue a indução no ramo com os demais atributos ainda não utilizados; 3. retornar à etapa 1 até que nenhuma expansão seja possível. Para reduzir a ambigüidade de classificação durante a indução, Yuan e Shaw definiram um nível de significância para as evidências com o objetivo de filtrar as informações irrelevantes. Dada uma evidência fuzzy A com função de pertinência A ( x) µ, define-se a evidência fuzzy A com nível de significância α por A α com a seguinte função de pertinência: ( x), µ A ( ), µ ( ) µ A x µ A α ( x) = 0 A x α < α Em uma dada expansão, se nenhum atributo disponível reduzir a ambigüidade de classificação, Yuan e Shaw sugerem que seja formada uma folha com a classe de maior grau de certeza. Esta decisão não será seguida pois o interesse em árvores fuzzy neste estudo não é a geração da árvore de maior eficiência, mas uma árvore que realize 15

26 associações de boa qualidade envolvendo os atributos, seus valores lingüísticos e as classes de um problema Outros trabalhos sobre árvores de decisão fuzzy Apesar das pesquisas sobre árvores de decisão fuzzy não serem tão recentes, o primeiro trabalho foi em 1977 (CHANG & PAVLIDIS, 1977), a quantidade de trabalhos não é tão volumosa quanto as de outras técnicas híbridas oriundas de Sistemas Fuzzy, Redes Neurais e Computação Evolutiva. Alguns trabalhos são apresentados a seguir. Em geral, os modelos de construção de árvores fuzzy são inspirados nos modelos tradicionais de árvores. Desses, o que provavelmente mais influenciou as pesquisas foi o ID3. Apesar de o primeiro trabalho propondo o emprego da lógica fuzzy no ID3, o FID3, ser de RIVES (1990), o estudo que se popularizou foi o de WEBER (1992). No FID3, o conceito de entropia é fuzzificado e um elemento irá pertencer a um ramo se o seu grau de pertinência ao ramo for positivo. Outro trabalho que seguiu esta linha e que obteve grande destaque é o de JANIKOW (1998), que incorporou o tratamento a valores ausentes nos registros, manipulação de atributos contínuos e propôs diversas estratégias para se obter a classificação de um novo elemento pela árvore fuzzy. YEUNG et al. (2002) compararam a capacidade de generalização entre o ID3 e o FID3 em problemas com atributos numéricos e concluíram que o FID3 obteve melhores resultados. A implementação do FID3 no sistema fuzzy-genético desta pesquisa também foi levada em consideração. Entretanto, o fato de YUAN & SHAWN (1995) terem apresentado um modelo em que a avaliação dos atributos é essencialmente fuzzy fez com que o FID3 fosse preterido neste trabalho. WANG et al. (2001) e MARSALA & BOUCHON-MEUNIER (2003) apresentaram uma breve comparação entre os dois modelos. WANG et al. (2002) e LI et al. (2003) fizeram um estudo sobre diversos valores para o nível de significância das evidências e o estendeu para o modelo FID3. BOYEN & WEHENKEL (1995) apresentaram uma árvore fuzzy binária em que os particionamentos fuzzy são definidos dinamicamente de acordo com uma nova medida de avaliação de qualidade do par atributo/particionamento. A árvore é testada 16

27 em um problema da indústria elétrica e os autores defendem que o novo modelo é superior aos modelos tradicionais de árvores. A questão do particionamento dinâmico em árvores fuzzy binárias também é estudada por PENG & FLACH (2001). Em árvores fuzzy quaisquer, BENBRAHIM & BENSAID (2002) empregam o algoritmo de agrupamento fuzzy c-means para determinar o particionamento e defendem que esta proposta é superior a árvore C4.5 (cf. seção 4.2) podada pelas técnicas mais comuns. JANIKOW (1996a) emprega um algoritmo genético para otimização das partições dos domínios dos atributos durante a indução da árvore. KIM et al. (1999) também utilizam um algoritmo genético em uma árvore fuzzy procurando otimizar as funções de pertinências triangulares dos conjuntos fuzzy das evidências, obtidas a partir de análises de histogramas. Ainda considerando o particionamento dinâmico, podem ser citados os trabalhos de ZEIDLER & SCHLOSSER (1996), ITTNER et al. (1996) e MARSALA & BOUCHON-MEUNIER (1996). JANIKOW (1996b) apresenta uma estratégia de se realizar a inferência com uma árvore fuzzy, propondo o uso de exemplares. Em uma dada folha, um exemplar é o centróide dos seus elementos e o autor propõe algumas formas de emprego desses objetos-modelos na tomada de decisão. GUETOVA et al. (2002) propõem um modelo incremental de aprendizado de árvores fuzzy. A cada novo exemplo adicionado, o algoritmo verifica se há a necessidade de se alterar a estrutura da árvore já construída. Os autores argumentam que, em situações em que a árvore é induzida concomitante à chegada de novos dados, sua proposta economiza tempo de processamento ao evitar que uma nova árvore seja freqüentemente gerada. A aplicação estudada foi a de um sistema de personalização de acesso de um cliente a uma loja virtual. WANG et al. (2000) mostram uma técnica para otimizar o tamanho de uma árvore fuzzy FID3 ou a do modelo de Yuan e Shaw. Objetivando reduzir a quantidade de folhas e a profundidade da árvore, eles utilizam um algoritmo de agrupamento de ramos. Também preocupados em gerar árvores menores, DONG & KOTHARI (2001) modificaram o FID3 de modo que a avaliação de um atributo também incorpore o seu potencial de classificação. Este potencial é calculado em termos da suavidade da superfície formada pelas classes dos objetos em um dado ramo. Quanto mais suave é a superfície, maior é o potencial. Outra medida de avaliação é proposta por YEUNG et al. (1999). Chamada de grau de importância, ela informa a contribuição média de um 17

28 atributo e seus possíveis valores na classificação dos elementos do ramo. Quanto maior a contribuição do atributo, mais importante ele é. TSANG et al. (2000) propõem o uso de uma rede neural para aumentar a acurácia de uma árvore fuzzy FID3 com pesos sem prejudicar a sua compreensibilidade. Esses pesos refletem o grau de certeza de classificação de uma folha e os graus de importância de cada ramo e de suas evidências. A rede é utilizada para configurar os valores desses pesos após a indução da árvore. JENG et al. (1997) propõe a construção de uma árvore tradicional e a sua conversão para uma árvore fuzzy. Esta conversão fuzzifica as classes nas folhas e as ramificações. A classificação de um novo elemento ocorre com a defuzzificação do conjunto fuzzy-resposta. CHIANG & HSU (2002) empregam o algoritmo de agrupamento fuzzy c-means para definir os grupos em uma determinada folha e estes são usados na classificação de novos elementos. Eles propõem o nome árvore de classificação fuzzy para uma árvore assim induzida. LEE et al. (1999) propõem uma árvore capaz de lidar com atributos com valores fuzzy cujas funções de pertinência são automaticamente geradas durante a indução. MITRA et al. (2002) apresentam uma estratégia de iniciação de uma rede neuro-fuzzy por meio das regras extraídas de uma árvore fuzzy binária. Uma medida de qualidade de regras é gerada de modo que apenas as regras com melhor desempenho são aproveitadas. 18

29 3. O modelo fuzzy-genético 3.1. Gerando regras a partir dos dados numéricos O processo de geração de regras foi apresentado por EVSUKOFF et al. (1997) que aplicaram o esquema de decomposição proposto por KOSKO (1992) a regras TSK de ordem zero. A Tabela 3.1 ilustra a estrutura dessas regras para uma base de dados com dois atributos. Tabela 3.1. Regras fuzzy TSK Modelo Exemplo Takagi-Sugeno-Kang (TSK): Se x 1 é A i e x 2 é A j, então y i = f ( x 1, x 2 ) TSK de ordem zero: TSK de ordem zero decompostas: Se x 1 é A i e x 2 é A j, então y i = c ij Se x 1 é A i, então y i = c i Se x 2 é A j, então y i = c j Cada espaço de atributo foi normalizado e dividido em 5 partições. Estas podem ser definidas como funções de pertinência triangulares, trapezoidais ou multi-sigmoidais (DRAKOPOULOS, 1995), associadas aos valores lingüísticos pequeno, médio pequeno, médio, médio grande e grande, e são apresentadas nas Tabelas (Figuras ). Nestas figuras, peq, mpq, med, mgr e gra identificam os valores lingüísticos acima, respectivamente. Tabela 3.2. Funções de pertinência triangulares µ µ µ µ µ Funções de pertinência triangulares pequeno médiopequeno médio ( x) = máx{ 0,1 4 x } ( x) = máx{ 0,1 4 x 0,25 } ( x) = máx{ 0,1 4 x 0,5 } médiogrande grande ( x) = máx{ 0,1 4 x 0,75 } ( x) = máx{ 0,1 4 x 1 } 19

30 µ µ µ µ µ pequeno Tabela 3.3. Funções de pertinência trapezoidais ( x) médiopeque no médio ( x) médiogrand e grande ( x) Funções de pertinência trapezoidais 1 = máx ( x) máx = máx 1 ( x) { 0, (0,225 x) 8 } máx = máx 1 { 0, (x 0,1) 8 } { 0, (0,45 x ) 8 } { 0, (x 0,325) 8 } { 0, (0,675 x ) 8 } máx = máx 1 1 = máx { 0, (x 0,55) 8 } { 0, (0,90 x ) 8 } { 0, (x 0,775) 8 }, se x 0,1, caso contrário, se x, se x, caso, se x, caso, se x < 0,225, se x > 0,325, caso contrário < 0,45 > 0,55 contrário, se x < 0,675, se x > 0,775, caso contrário > 0,9 contrário Tabela 3.4. Funções de pertinência multi-sigmoidais Funções de pertinência multi-sigmoidais k = 354, µ µ µ µ µ pequeno ( ) médiopequeno médio ( ) médiogrande grande 1 = exp(k x x 3 ( ) 1 = exp(k x 0,25 x 3 1 = exp(k x 0,5 x 3 ( ) ( ) 1 = exp(k x 0,75 x 3 ) 1 = exp(k x 1 x 3 ) ) ) ) 20

31 1,00 0,75 0,50 peq mpq med mgr gra 0,25 0,00 0 0,25 0,5 0,75 1 Figura 3.1. Representação gráfica das funções de pertinência triangulares. 1,00 0,75 0,50 peq mpq med mgr gra 0,25 0,00 0 0,25 0,5 0,75 1 Figura 3.2. Representação gráfica das funções de pertinência trapezoidais 1,00 0,75 0,50 peq mpq med mgr gra 0,25 0,00 0 0,25 0,5 0,75 1 Figura 3.3. Representação gráfica das funções de pertinência multi-sigmoidais As regras são construídas de tal modo que suas respostas informam, além de uma classe, um valor de saída definido pelo conceito de grau de inclusão de conjuntos fuzzy (cf. seção 2.3). Dados M padrões de treinamento x m m m = ( x,...,x ) de classes y m = m m ( y1,..., y K ), 1 m M, o grau em que o conjunto X i, j (atributo i, valor lingüístico j) está incluído no conjunto da classe k, 1 k K, é dado por: 1 n 21

32 ϕ i kj = M µ x m= 1 M m= 1 ij µ m ( x ) x ij i y m ( x ) i m k Nas bases de dados estudadas, cada elemento pertence a uma única classe. Dessa forma, apenas um dos componentes do vetor y m possui valor 1 e os demais possuem valor 0. Portanto, as regras possuem a seguinte estrutura: Regra R i k, j : Se x i é X i, j então classe = k com influência π i k, j = ϕ i k, j em que k = 1,..., K, i = 1,..., n e j = 1,..., 5. Considerando uma base de dados com n atributos e K possíveis classes, a base de regras gerada por esse procedimento é formada por 5 K n elementos Classificação de novos elementos Dado um elemento ( x1,..., x n ), a determinação de sua classe requer a execução das seguintes etapas: 1. para cada atributo x i, combinar as respostas das regras relativas a uma mesma classe k 5 i ϕkj i j= 1 πk = 5 j= 1 µ µ xij xij ( x ) ( x ) i i, em que k = 1,..., K. 2. para cada classe, agregar as respostas não-nulas combinadas da etapa anterior pela seguinte função: i i { π π > 0, i 1,...,n } π k = mín k k = 3. a classe com o maior valor π k é atribuída ao elemento. 22

33 Estabeleceu-se que apenas as respostas não-nulas na segunda etapa sejam utilizadas pois o classificador final possivelmente não conterá todas as regras da base e haverá algum par atributo/classe sem representação. Assim, isto acarretará em uma resposta nula e esta significa que nenhuma classe será atribuída ao objeto que deseja-se classificar, situação que se procura evitar A aplicação do algoritmo genético Introdução Em muitos problemas, utilizar toda a base de regras na classificação de um novo elemento pode não ser conveniente pelos seguintes motivos, dentre outros: 1. a base de regras pode ser muito grande, causando uma demora excessiva na avaliação do elemento; 2. se a quantidade de elementos a serem classificados for muito grande, o tempo de processamento torna-se excessivamente alto; 3. a base de regras pode não produzir a classe correta devido à influência negativa de regras de pouca confiabilidade. O objetivo do algoritmo genético desta pesquisa é extrair um pequeno subconjunto de uma base de regras que utilize a menor quantidade de atributos e que tenha a maior acurácia possível. Ele é inspirado no sistema fuzzy-genético de ISHIBUCHI et al. (1996) que evolui regras de Mamdani Codificação e função de adequabilidade Cada subconjunto de regras é uma solução candidata e é representado por um cromossomo (Figura 3.4) utilizando o alfabeto binário { 0,1 }. Cada regra é representada por um gene no cromossomo. Se uma regra estiver presente em um subconjunto, seu gene correspondente recebe o alelo 1. Caso contrário, o alelo recebido é o 0. 23

Redes Neurais e Sistemas Fuzzy

Redes Neurais e Sistemas Fuzzy 1. Inteligência Computacional Redes Neurais e Sistemas Fuzzy Apresentação da disciplina Conceitos básicos A chamada Inteligência Computacional (IC) reúne uma série de abordagens e técnicas que tentam modelar

Leia mais

Geração Automática de Sistemas Nebulosos por Co-Evolução

Geração Automática de Sistemas Nebulosos por Co-Evolução Geração Automática de Sistemas Nebulosos por Co-Evolução Geração Automática de Sistemas Nebulosos por Co-Evolução Anderson Francisco Talon Heloisa de Arruda Camargo Geração Automática de Sistemas Nebulosos

Leia mais

Seleção de Atributos 1

Seleção de Atributos 1 Seleção de Atributos 1 Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Seleção de atributos antes do aprendizado Benefícios Abordagens automáticas

Leia mais

Modelagem para previsão/estimação: uma aplicação Neuro-Fuzzy

Modelagem para previsão/estimação: uma aplicação Neuro-Fuzzy Proceeding Series of the Brazilian Society of pplied and Computational Mathematics, Vol., N., 0. Trabalho apresentado no XXXV CNMC, Natal-RN, 0. Modelagem para previsão/estimação: uma aplicação Neuro-Fuzzy

Leia mais

Modelos Evolucionários e Tratamento de Incertezas

Modelos Evolucionários e Tratamento de Incertezas Ciência da Computação Modelos Evolucionários e Tratamento de Incertezas Aula 07 Inferência Difusa Sistemas de Controle Difuso Max Pereira Regras difusas SE ENTÃO Antecedente:

Leia mais

Aprendizado de Máquina (Machine Learning)

Aprendizado de Máquina (Machine Learning) Ciência da Computação Aprendizado de Máquina (Machine Learning) Aula 09 Árvores de Decisão Max Pereira Classificação É a tarefa de organizar objetos em uma entre diversas categorias pré-definidas. Exemplos

Leia mais

4 Implementação Computacional

4 Implementação Computacional 4 Implementação Computacional 4.1. Introdução Neste capítulo é apresentada a formulação matemática do problema de otimização da disposição das linhas de ancoragem para minimizar os deslocamentos (offsets)

Leia mais

Aprendizado de Máquina. Combinando Classificadores

Aprendizado de Máquina. Combinando Classificadores Universidade Federal do Paraná (UFPR) Departamento de Informática (DInf) Aprendizado de Máquina Combinando Classificadores David Menotti, Ph.D. web.inf.ufpr.br/menotti Introdução O uso de vários classificadores

Leia mais

1 Introdução 1.1 Motivação

1 Introdução 1.1 Motivação 1 Introdução 1.1 Motivação Na engenharia civil, toda estrutura deve ser projetada para suportar a carga a que está submetida da forma mais segura possível utilizando o mínimo de material. Neste sentido,

Leia mais

3. Resolução de problemas por meio de busca

3. Resolução de problemas por meio de busca Inteligência Artificial - IBM1024 3. Resolução de problemas por meio de busca Prof. Renato Tinós Local: Depto. de Computação e Matemática (FFCLRP/USP) 1 Principais Tópicos 3. Resolução de problemas por

Leia mais

Inteligência Artificial. Raimundo Osvaldo Vieira [DComp IFMA Campus Monte Castelo]

Inteligência Artificial. Raimundo Osvaldo Vieira [DComp IFMA Campus Monte Castelo] Inteligência Artificial Raimundo Osvaldo Vieira [DComp IFMA Campus Monte Castelo] Aprendizagem de Máquina Área da Inteligência Artificial cujo objetivo é o desenvolvimento de técnicas computacionais sobre

Leia mais

CONTEÚDO LÓGICA NEBULOSA INTRODUÇÃO INTRODUÇÃO. Lógica Procura modelar o raciocínio. Lógica. Marley Maria B.R. Vellasco

CONTEÚDO LÓGICA NEBULOSA INTRODUÇÃO INTRODUÇÃO. Lógica Procura modelar o raciocínio. Lógica. Marley Maria B.R. Vellasco LÓGICA NEBULOSA Marley Maria B.R. Vellasco ICA: Núcleo de Pesquisa em Inteligência Computacional Aplicada PUC-Rio CONTEÚDO Introdução Introdução, Objetivo e Histórico Conceitos Básicos Definição, Características

Leia mais

Algoritmos Genéticos. Princípio de Seleção Natural. Sub-áreas da Computação Evolutiva. Idéias básicas da CE. Computação Evolutiva

Algoritmos Genéticos. Princípio de Seleção Natural. Sub-áreas da Computação Evolutiva. Idéias básicas da CE. Computação Evolutiva Computação Evolutiva Algoritmos Genéticos A computação evolutiva (CE) é uma área da ciência da computação que abrange modelos computacionais inspirados na Teoria da Evolução das Espécies, essencialmente

Leia mais

Aprendizado de Máquina

Aprendizado de Máquina Aprendizado de Máquina Árvores de Decisão Luiz Eduardo S. Oliveira Universidade Federal do Paraná Departamento de Informática http://lesoliveira.net Luiz S. Oliveira (UFPR) Aprendizado de Máquina 1 / 28

Leia mais

Árvore de Decisão. George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE

Árvore de Decisão. George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE Árvore de Decisão George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE Tópicos Introdução Representando Árvores de Decisão O algoritmo ID3 Definições Entropia Ganho de Informação Overfitting Objetivo

Leia mais

Sistema de Inferência Fuzzy baseado em Redes Adaptativas (ANFIS) Sistema de Inferência Fuzzy

Sistema de Inferência Fuzzy baseado em Redes Adaptativas (ANFIS) Sistema de Inferência Fuzzy Redes Neurais Sistema de Inferência Fuzzy baseado em Redes Adaptativas (ANFIS) Sistema de Inferência Fuzzy Um Sistema de Inferência Fuzzy (SIF) é um tipo especial de Sistema Baseado em Conhecimento (SBC).

Leia mais

Computação Evolutiva Eduardo do Valle Simões Renato Tinós ICMC - USP

Computação Evolutiva Eduardo do Valle Simões Renato Tinós ICMC - USP Computação Evolutiva Eduardo do Valle Simões Renato Tinós ICMC - USP 1 Principais Tópicos Introdução Evolução Natural Algoritmos Genéticos Aplicações Conclusão 2 Introdução http://www.formula-um.com/ Como

Leia mais

Fundamentos de Inteligência Artificial [5COP099]

Fundamentos de Inteligência Artificial [5COP099] Fundamentos de Inteligência Artificial [5COP099] Dr. Sylvio Barbon Junior Departamento de Computação - UEL 1 o Semestre Assunto Aula 10 Modelos Preditivos - Árvore de Decisão 2 de 20 Aula 10 - Árvore de

Leia mais

Computação Evolutiva. Computação Evolutiva. Principais Tópicos. Evolução natural. Introdução. Evolução natural

Computação Evolutiva. Computação Evolutiva. Principais Tópicos. Evolução natural. Introdução. Evolução natural Computação Evolutiva Eduardo do Valle Simões Renato Tinós ICMC - USP Principais Tópicos Introdução Evolução Natural Algoritmos Genéticos Aplicações Conclusão 1 2 Introdução Evolução natural http://www.formula-um.com/

Leia mais

Metodologia Aplicada a Computação.

Metodologia Aplicada a Computação. Metodologia Aplicada a Computação gaudenciothais@gmail.com Pré-processamento de dados Técnicas utilizadas para melhorar a qualidade dos dados; Eliminam ou minimizam os problemas como ruídos, valores incorretos,

Leia mais

6. Controle por Aprendizado Neuro-Fuzzy

6. Controle por Aprendizado Neuro-Fuzzy 6. Controle por Aprendizado Neuro-Fuzzy 6.1. Introdução Neste capítulo é apresentado o controle por aprendizado utilizando um sistema híbrido Neuro-Fuzzy, para o cálculo e atualização dos pontos de reversão

Leia mais

3 Sistemas Neuro-Fuzzy Hierárquicos

3 Sistemas Neuro-Fuzzy Hierárquicos 3 Sistemas Neuro-Fuzzy Hierárquicos 3. Introdução Sistemas neuro-fuzzy (SNF) são sistemas híbridos que combinam as vantagens das redes neurais, no que se refere ao aprendizado, com o poder de interpretação

Leia mais

INF 1771 Inteligência Artificial

INF 1771 Inteligência Artificial INF 1771 Inteligência Artificial Aula 09 Lógica Fuzzy Edirlei Soares de Lima Introdução A Lógica Fuzzy é baseada na teoria dos conjuntos fuzzy. Tradicionalmente, uma proposição lógica

Leia mais

Universidade Federal do Paraná (UFPR) Bacharelado em Informática Biomédica. Árvores de Decisão. David Menotti.

Universidade Federal do Paraná (UFPR) Bacharelado em Informática Biomédica. Árvores de Decisão. David Menotti. Universidade Federal do Paraná (UFPR) Bacharelado em Informática Biomédica Árvores de Decisão David Menotti www.inf.ufpr.br/menotti/ci171-182 Árvores de Decisão Agenda Introdução Representação Quando Usar

Leia mais

Aprendizagem de Máquina. Prof. Júlio Cesar Nievola PPGIA - PUCPR

Aprendizagem de Máquina. Prof. Júlio Cesar Nievola PPGIA - PUCPR Aprendizagem de Máquina Prof. Júlio Cesar Nievola PPGIA - PUCPR Introdução Justificativa Recente progresso em algoritmos e teoria Disponibilidade crescente de dados online Poder computacional disponível

Leia mais

Figura 3.1: Fluxograma do algoritmo da Programação Genética.

Figura 3.1: Fluxograma do algoritmo da Programação Genética. 3 Programação Genética O termo Programação Genética passou a ser utilizado em 1990 nos trabalhos publicados por Koza [30] e De Garis [31]. A definição de Koza para este termo passou a predominar após a

Leia mais

Classificação e Predição de Dados - Profits Consulting - Consultoria Empresarial - Serviços SAP- CRM Si

Classificação e Predição de Dados - Profits Consulting - Consultoria Empresarial - Serviços SAP- CRM Si Classificação e Predição de Dados - Profits Consulting - Consultoria Empresarial - Serviços SAP- CRM Si Classificação de Dados Os modelos de classificação de dados são preditivos, pois desempenham inferências

Leia mais

Universidade Estadual do Oeste do Paraná Curso de Bacharelado em Ciência da Computação. Inteligência Artificial. Lógica Fuzzy Aula II

Universidade Estadual do Oeste do Paraná Curso de Bacharelado em Ciência da Computação. Inteligência Artificial. Lógica Fuzzy Aula II Universidade Estadual do Oeste do Paraná Curso de Bacharelado em Ciência da Computação Inteligência Artificial Lógica Fuzzy Aula II Introdução a Lógica Fuzzy Retomada Função de pertinência Variáveis linguísticas

Leia mais

Pós-Graduação em Engenharia de Automação Industrial SISTEMAS INTELIGENTES PARA AUTOMAÇÃO

Pós-Graduação em Engenharia de Automação Industrial SISTEMAS INTELIGENTES PARA AUTOMAÇÃO Pós-Graduação em Engenharia de Automação Industrial SISTEMAS INTELIGENTES PARA AUTOMAÇÃO AULA 06 Algoritmos Genéticos Sumário Introdução Inteligência Artificial (IA) Algoritmos Genéticos Aplicações de

Leia mais

Otimização Combinatória - Parte 4

Otimização Combinatória - Parte 4 Graduação em Matemática Industrial Otimização Combinatória - Parte 4 Prof. Thiago Alves de Queiroz Departamento de Matemática - CAC/UFG 2/2014 Thiago Queiroz (DM) Parte 4 2/2014 1 / 33 Complexidade Computacional

Leia mais

Aprendizado de Máquina (Machine Learning)

Aprendizado de Máquina (Machine Learning) Ciência da Computação (Machine Learning) Aula 02 Representação dos dados Pré-processamento Max Pereira Tipo de Dados Os atributos usados para descrever objetos de dados podem ser de diferentes tipos: Quantitativos

Leia mais

4 Métodos Existentes. 4.1 Algoritmo Genético

4 Métodos Existentes. 4.1 Algoritmo Genético 61 4 Métodos Existentes A hibridização de diferentes métodos é em geral utilizada para resolver problemas de escalonamento, por fornecer empiricamente maior eficiência na busca de soluções. Ela pode ser

Leia mais

INTELIGÊNCIA COMPUTACIONAL

INTELIGÊNCIA COMPUTACIONAL Rafael D. Ribeiro, M.Sc. rafaeldiasribeiro@gmail.com http://www.rafaeldiasribeiro.com.br A Inteligência Computacional (IC), denominada originalmente de Inteligência Artificial (IA), é uma das ciências

Leia mais

ÁRVORES DE DECISÃO PROFA. MARIANA KLEINA

ÁRVORES DE DECISÃO PROFA. MARIANA KLEINA ÁRVORES DE DECISÃO PROFA. MARIANA KLEINA DEFINIÇÃO Uma árvore de decisão é uma ferramenta de suporte à tomada de decisão que usa um gráfico no formato de árvore e demonstra visualmente as condições e as

Leia mais

SEL-0339 Introdução à Visão Computacional. Aula 7 Reconhecimento de Objetos

SEL-0339 Introdução à Visão Computacional. Aula 7 Reconhecimento de Objetos Departamento de Engenharia Elétrica - EESC-USP SEL-0339 Introdução à Visão Computacional Aula 7 Reconhecimento de Objetos Prof. Dr. Marcelo Andrade da Costa Vieira Prof. Dr. Adilson Gonzaga mvieira@sc.usp.br

Leia mais

Aprendizado de Máquina

Aprendizado de Máquina Universidade Federal do Espírito Santo Centro de Ciências Agrárias CCENS UFES Departamento de Computação Aprendizado de Máquina Inteligência Artificial Site: http://jeiks.net E-mail: jacsonrcsilva@gmail.com

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Árvores de Decisão Poda e extensões Prof. Paulo Martins Engel UFRGS 2 Questões sobre Árvores de Decisão Questões práticas do aprendizado de AD incluem: Determinar até quando se

Leia mais

Classificação: 1R e Naïve Bayes. Eduardo Raul Hruschka

Classificação: 1R e Naïve Bayes. Eduardo Raul Hruschka Classificação: 1R e Naïve Bayes Eduardo Raul Hruschka Agenda: Conceitos de Classificação Técnicas de Classificação One Rule (1R) Naive Bayes (com seleção de atributos) Super-ajuste e validação cruzada

Leia mais

Conteúdo da Apresentação

Conteúdo da Apresentação Extração de Regras Fuzzy para Máquina de Vetor Suporte (SVM) para Classificação em Múltiplas Classes Adriana da Costa F. Chaves Conteúdo da Apresentação Motivação Método de Extração de Regras Fuzzy Classificação

Leia mais

Inteligência Artificial. Conceitos Gerais

Inteligência Artificial. Conceitos Gerais Inteligência Artificial Conceitos Gerais Inteligência Artificial - IA IA é um campo de estudo multidisciplinar e interdisciplinar, que se apóia no conhecimento e evolução de outras áreas do conhecimento.

Leia mais

SISTEMAS ESPECIALISTAS

SISTEMAS ESPECIALISTAS SISTEMAS ESPECIALISTAS Um produto da Engenharia de Conhecimento, um sistema especialista representa o conhecimento de uma área específica e o utiliza para resolver problemas simulando o raciocínio de um

Leia mais

Créditos. SCC0173 Mineração de Dados Biológicos. Aula de Hoje. Introdução. Classificação III: Árvores de Decisão

Créditos. SCC0173 Mineração de Dados Biológicos. Aula de Hoje. Introdução. Classificação III: Árvores de Decisão SCC073 Mineração de Dados Biológicos Classificação III: Árvores de Decisão Créditos O material a seguir consiste de adaptações e extensões dos originais: gentilmente cedidos pelo Prof. André C. P. L. F.

Leia mais

Combinação de Classificadores (fusão)

Combinação de Classificadores (fusão) Combinação de Classificadores (fusão) André Tavares da Silva andre.silva@udesc.br Livro da Kuncheva Roteiro Sistemas com múltiplos classificadores Fusão por voto majoritário voto majoritário ponderado

Leia mais

2284-ELE/5, 3316-IE/3

2284-ELE/5, 3316-IE/3 INTELIGÊNCIA ARTIFICIAL 2284-ELE/5, 3316-IE/3 Universidade da Beira Interior, Departamento de Informática Hugo Pedro Proença, 2007/2008 Aprendizagem Supervisionada 2 Os vários algoritmos de Aprendizagem

Leia mais

Aprendizado de Máquina

Aprendizado de Máquina Aprendizado de Máquina Sistemas de Informação Inteligente Prof. Leandro C. Fernandes Adaptação dos materiais de: Thiago A. S. Pardo, Daniel Honorato e Bianca Zadrozny APRENDIZADO SIMBÓLICO: ÁRVORES DE

Leia mais

HP UFCG Analytics Abril-Maio Um curso sobre Reconhecimento de Padrões e Redes Neurais. Por Herman Martins Gomes.

HP UFCG Analytics Abril-Maio Um curso sobre Reconhecimento de Padrões e Redes Neurais. Por Herman Martins Gomes. HP UFCG Analytics Abril-Maio 2012 Um curso sobre Reconhecimento de Padrões e Redes Neurais Por Herman Martins Gomes hmg@dsc.ufcg.edu.br Programa Visão Geral (2H) Reconhecimento Estatístico de Padrões (3H)

Leia mais

5 Estudo de Caso e Resultados

5 Estudo de Caso e Resultados 5 Estudo de Caso e Resultados 5.1. Introdução Finalizado o desenvolvimento da ferramenta, é indispensável testar suas funcionalidades e a eficácia da aplicação conjunta dos seus módulos de geração de experimentos

Leia mais

Aprendizado de Máquina

Aprendizado de Máquina Aprendizado de Máquina Fabrício Olivetti de França Universidade Federal do ABC Tópicos 1. Introdução 1 Introdução Aprendizado de Máquina Extração de conhecimento. Automatização de tarefas. Tomada de Decisões.

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina écnicas de Classificação Árvores de Decisão Prof. Paulo Martins Engel UFRGS Árvores de Decisão As árvores de decisão (AD) são ferramentas poderosas para classificação cuja maior

Leia mais

7 Congresso de Pós-Graduação MODELAGEM DE BASE DE CONHECIMENTO PARA TAREFA DE CLASSIFICAÇÃO EM MINERAÇÃO DE DADOS

7 Congresso de Pós-Graduação MODELAGEM DE BASE DE CONHECIMENTO PARA TAREFA DE CLASSIFICAÇÃO EM MINERAÇÃO DE DADOS 7 Congresso de Pós-Graduação MODELAGEM DE BASE DE CONHECIMENTO PARA TAREFA DE CLASSIFICAÇÃO EM MINERAÇÃO DE DADOS Autor(es) LIDIA MARTINS DA SILVA Orientador(es) ANA ESTELA ANTUNES DA SILVA 1. Introdução

Leia mais

Aprendizado de Máquina

Aprendizado de Máquina Universidade Federal do Espírito Santo Centro de Ciências Agrárias CCA UFES Departamento de Computação Aprendizado de Máquina Inteligência Artificial Site: http://jeiks.net E-mail: jacsonrcsilva@gmail.com

Leia mais

Conceitos de Aprendizagem de Máquina e Experimentos. Visão Computacional

Conceitos de Aprendizagem de Máquina e Experimentos. Visão Computacional Conceitos de Aprendizagem de Máquina e Experimentos Visão Computacional O que você vê? 2 Pergunta: Essa imagem tem um prédio? Classificação 3 Pergunta: Essa imagem possui carro(s)? Detecção de Objetos

Leia mais

Aula 8 - Reconhecimento e Interpretação. Prof. Adilson Gonzaga

Aula 8 - Reconhecimento e Interpretação. Prof. Adilson Gonzaga Aula 8 - Reconhecimento e Interpretação Prof. Adilson Gonzaga Elementos de Visão Computacional: Visão Computacional Processamento de Baio Nível Processamento de Nível Intermediário Processamento de Alto

Leia mais

3 Algoritmos Genéticos

3 Algoritmos Genéticos Técnicas de Inteligência Computacional 33 3 Algoritmos Genéticos Este capítulo resume os principais conceitos sobre o algoritmo evolucionário empregado nesta dissertação. É apresentada uma breve explicação

Leia mais

Sistemas especialistas Fuzzy

Sistemas especialistas Fuzzy Sistemas Fuzzy Sistemas especialistas Fuzzy Especialistas Senso comum para resolver problemas Impreciso, inconsistente, incompleto, vago Embora o transformador esteja um pouco carregado, pode-se usá-lo

Leia mais

Uso de Algoritmo Genético para a otimização do ponto de corte da probabilidade de sucesso estimada do modelo de Regressão Logística

Uso de Algoritmo Genético para a otimização do ponto de corte da probabilidade de sucesso estimada do modelo de Regressão Logística Uso de Algoritmo Genético para a otimização do ponto de corte da probabilidade de sucesso estimada do modelo de Regressão Logística José Edson Rodrigues Guedes Gondim 1 Joab de Oliveira Lima 2 1 Introdução

Leia mais

3 Algoritmos Genéticos

3 Algoritmos Genéticos Algoritmos Genéticos Algoritmos Genéticos (AGs) constituem um mecanismo de busca adaptativa que se baseia no princípio Darwiniano de seleção natural e reprodução genética [101]. AGs são tipicamente empregados

Leia mais

Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas

Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas Wrapper Filtros Muitos algoritmos de AM são projetados de modo a selecionar os

Leia mais

Inteligência Computacional [2COP229]

Inteligência Computacional [2COP229] Inteligência Computacional [2COP229] Mestrado em Ciência da Computação Sylvio Barbon Jr barbon@uel.br (2/41) Tema Aula Árvores de Decisão Aula- Árvore de Decisão (3/41) Sumário Introdução Indução de Árvores

Leia mais

Seleção de Atributos FSS. Relevância de Atributos. Relevância de Atributos. Seleção de Atributos - FSS. FSS como Busca no Espaço de Estados

Seleção de Atributos FSS. Relevância de Atributos. Relevância de Atributos. Seleção de Atributos - FSS. FSS como Busca no Espaço de Estados Seleção FSS Alguns indutores geralmente degradam seu desempenho quando são fornecidos muitos atributos irrelevantes para o conceito a ser aprendido Feature Subset Selection (FSS) é o processo de selecionar

Leia mais

BCC204 - Teoria dos Grafos

BCC204 - Teoria dos Grafos BCC204 - Teoria dos Grafos Marco Antonio M. Carvalho (baseado nas notas de aula do prof. Haroldo Gambini Santos) Departamento de Computação Instituto de Ciências Exatas e Biológicas Universidade Federal

Leia mais

PROJETO E ANÁLISES DE EXPERIMENTOS (PAE) INTRODUÇÃO AOS MÉTODOS ESTATÍSTICOS EM ENGENHARIA

PROJETO E ANÁLISES DE EXPERIMENTOS (PAE) INTRODUÇÃO AOS MÉTODOS ESTATÍSTICOS EM ENGENHARIA PROJETO E ANÁLISES DE EXPERIMENTOS (PAE) INTRODUÇÃO AOS MÉTODOS ESTATÍSTICOS EM ENGENHARIA VARIABILIDADE NA MEDIDA DE DADOS CIENTÍFICOS Se numa pesquisa, desenvolvimento de um processo ou produto, o valor

Leia mais

Estratégias Evolutivas EEs. Prof. Juan Moisés Mauricio Villanueva

Estratégias Evolutivas EEs. Prof. Juan Moisés Mauricio Villanueva Estratégias Evolutivas EEs Prof. Juan Moisés Mauricio Villanueva jmauricio@cear.ufpb.br www.cear.ufpb.br/juan Estratégias Evolutivas Desenvolvidas por Rechenberg e Schwefel, e estendida por Herdy, Kursawe

Leia mais

Árvores de Decisão. Sistemas Inteligentes

Árvores de Decisão. Sistemas Inteligentes Árvores de Decisão Sistemas Inteligentes Uma Abordagem típica em aprendizagem simbólica Árvores de decisão: inductive decision trees (ID3) Instâncias (exemplos) são representadas por pares atributo-valor

Leia mais

Incertezas na Computação Científica: Abordagens via Matemática Intervalar e Teoria Fuzzy

Incertezas na Computação Científica: Abordagens via Matemática Intervalar e Teoria Fuzzy Incertezas na Computação Científica: Abordagens via Matemática Intervalar e Teoria Fuzzy Rogério Vargas Dr. Luciano Vitoria Barboza, orientador Dra. Graçaliz Pereira Dimuro, co-orientadora Pelotas-RS,

Leia mais

SUPPORT VECTOR MACHINE - SVM

SUPPORT VECTOR MACHINE - SVM SUPPORT VECTOR MACHINE - SVM Definição 2 Máquinas de Vetores Suporte (Support Vector Machines - SVMs) Proposto em 79 por Vladimir Vapnik Um dos mais importantes acontecimentos na área de reconhecimento

Leia mais

Fundamentos de Inteligência Artificial [5COP099]

Fundamentos de Inteligência Artificial [5COP099] Fundamentos de Inteligência Artificial [5COP099] Dr. Sylvio Barbon Junior Saulo Martiello Mastelini Departamento de Computação - UEL 1 o Semestre Assunto Aula 11 Modelos Preditivos - Árvore de Decisão

Leia mais

Descoberta de Conhecimento em Bancos de Dados - KDD

Descoberta de Conhecimento em Bancos de Dados - KDD Descoberta de Conhecimento em Bancos de Dados - KDD Professor: Rosalvo Ferreira de Oliveira Neto Disciplina: Inteligência Artificial Tópicos 1. Definições 2. Fases do processo 3. Exemplo do DMC 4. Avaliação

Leia mais

Aprendizado em IA. Prof. Carlos H. C. Ribeiro ITA Divisão de Ciência da Computação

Aprendizado em IA. Prof. Carlos H. C. Ribeiro ITA Divisão de Ciência da Computação Aprendizado em IA Prof. Carlos H. C. Ribeiro ITA Divisão de Ciência da Computação Tópicos Agentes baseados em aprendizado Aprendizado indutivo Árvores de decisão Método ID3 Aprendizado em redes neurais

Leia mais

Teoria da Decisão. Modelagem de Preferência. Prof. Lucas S. Batista. lusoba

Teoria da Decisão. Modelagem de Preferência. Prof. Lucas S. Batista.   lusoba Teoria da Decisão Modelagem de Preferência Prof. Lucas S. Batista lusoba@ufmg.br www.ppgee.ufmg.br/ lusoba Universidade Federal de Minas Gerais Escola de Engenharia Graduação em Engenharia de Sistemas

Leia mais

Algoritmos Evolutivos para Otimização

Algoritmos Evolutivos para Otimização Algoritmos Evolutivos para Otimização A área de aplicação que tem recebido mais atenção é a otimização. Uma das razões é que existem uma variedade de problemas de otimização e a maioria deles sem solução

Leia mais

Capítulo 4. Comitê BAS 35

Capítulo 4. Comitê BAS 35 4 Comitê BAS Devido à flexibilidade do algoritmo BAS, que aceita qualquer distribuição inicial para os exemplos, diversas heurísticas podem ser implementadas com o objetivo de criar classificadores de

Leia mais

3 Aprendizado por reforço

3 Aprendizado por reforço 3 Aprendizado por reforço Aprendizado por reforço é um ramo estudado em estatística, psicologia, neurociência e ciência da computação. Atraiu o interesse de pesquisadores ligados a aprendizado de máquina

Leia mais

Conjuntos Fuzzy e Lógica Fuzzy

Conjuntos Fuzzy e Lógica Fuzzy 1 Introdução Conjuntos Fuzzy e Lógica Fuzzy users.femanet.com.br/~fabri/fuzzy.htm Os Conjuntos Fuzzy e a Lógica Fuzzy provêm a base para geração de técnicas poderosas para a solução de problemas, com uma

Leia mais

Árvores de decisão. Marcelo K. Albertini. 17 de Agosto de 2015

Árvores de decisão. Marcelo K. Albertini. 17 de Agosto de 2015 Árvores de decisão Marcelo K. Albertini 17 de Agosto de 2015 2/31 Árvores de Decisão Nós internos testam o valor de um atributo individual ramificam de acordo com os resultados do teste Nós folhas especificam

Leia mais

Aprendizado de Máquina

Aprendizado de Máquina Universidade Federal do Espírito Santo Centro de Ciências Agrárias CCA UFES Departamento de Computação Aprendizado de Máquina Inteligência Artificial Site: http://jeiks.net E-mail: jacsonrcsilva@gmail.com

Leia mais

Tópicos Especiais em Informática Fatec Indaiatuba 13/07/2017

Tópicos Especiais em Informática Fatec Indaiatuba 13/07/2017 Inteligência de Negócios Fatec Indaiatuba Prof. Piva Compreender as definições e conceitos básicos da Mineração de Dados (MD) Entender o processo KDD (Knowledge Discovery Data) e MD Descrever as etapas

Leia mais

Inteligência nos Negócios (Business Inteligente)

Inteligência nos Negócios (Business Inteligente) Inteligência nos Negócios (Business Inteligente) Sistemas de Informação Sistemas de Apoio a Decisão Aran Bey Tcholakian Morales, Dr. Eng. (Apostila 6) Fundamentação da disciplina Analise de dados Decisões

Leia mais

Inteligência Artificial

Inteligência Artificial Inteligência Artificial Aula 14 Aprendizado de Máquina Avaliação de s Preditivos (Classificação) Hold-out K-fold Leave-one-out Prof. Ricardo M. Marcacini ricardo.marcacini@ufms.br Curso: Sistemas de Informação

Leia mais

INTELIGÊNCIA ARTIFICIAL

INTELIGÊNCIA ARTIFICIAL INTELIGÊNCIA ARTIFICIAL LÓGICA FUZZY (ou NEBULOSA) Prof. Ronaldo R. Goldschmidt ronaldo.rgold@gmail.com O que é? Técnica inteligente que tem como objetivo modelar o modo aproimado de raciocínio, imitando

Leia mais

F- Classificação. Banda A

F- Classificação. Banda A F- Classificação Classificação Digital é associar determinado pixel a determinada categoria por meio de critérios estatísticos Banda B? da d b dc Espaço dos Atributos Classes Banda A Classificação: ordenar,

Leia mais

2COP229 Inteligência Computacional. Aula 3. Clusterização.

2COP229 Inteligência Computacional. Aula 3. Clusterização. Aula 3 Clusterização Sumário (Clusterização) - Introdução - Aprendizado Não Supervisionado - Aprendizado Supervisionado - Introdução: Clusterização - Etapas para o processo de Clusterização - Distância

Leia mais

Inteligência Artificial. Algoritmos Genéticos. Aula I Introdução

Inteligência Artificial. Algoritmos Genéticos. Aula I Introdução Universidade Estadual do Oeste do Paraná Curso de Bacharelado em Ciência da Computação Inteligência Artificial Algoritmos Genéticos Aula I Introdução Roteiro Introdução Computação Evolutiva Algoritmos

Leia mais

Inteligência Computacional

Inteligência Computacional Inteligência Computacional CP78D Lógica Fuzzy Aula 4 Prof. Daniel Cavalcanti Jeronymo Universidade Tecnológica Federal do Paraná (UTFPR) Engenharia Eletrônica 9º Período 1/37 Lógica Clássica Plano de Aula

Leia mais

2 Medida de Incertezas: Fundamentos

2 Medida de Incertezas: Fundamentos 2 Medida de Incertezas: Fundamentos 2. Introdução O resultado de um processo de medição fornece uma determinada informação que usualmente é chamada de conhecimento. A fim de quantificar quão completo é

Leia mais

Saída: Representação de conhecimento

Saída: Representação de conhecimento Saída: Representação de conhecimento Kate Revoredo katerevoredo@uniriotec.br 1 Saída: Representando padrões estruturais Existem muitas maneiras diferentes de representar padrões: Árvores de decisão, regras,

Leia mais

Mineração de Dados em Biologia Molecular

Mineração de Dados em Biologia Molecular Mineração de Dados em Biologia Molecular André C.. L. F. de Carvalho Monitor: Valéria Carvalho lanejamento e Análise de Experimentos rincipais tópicos Estimativa do erro artição dos dados Reamostragem

Leia mais

lnteligência Artificial Aprendizagem em IA

lnteligência Artificial Aprendizagem em IA lnteligência Artificial Aprendizagem em IA 1 Aprendizagem por que? Capacidade de aprender é parte fundamental do conceito de inteligência. Um agente aprendiz é mais flexível aprendizado permite lidar com

Leia mais

Aprendizado de Máquinas

Aprendizado de Máquinas Aprendizado de Máquinas Objetivo A área de aprendizado de máquina preocupa-se em construir programas que automaticamente melhorem seu desempenho com a experiência. Conceito AM estuda métodos computacionais

Leia mais

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica REDES DE FUNÇÃO DE BASE RADIAL - RBF Prof. Dr. André A. P. Biscaro 1º Semestre de 2017 Funções de Base Global Funções de Base Global são usadas pelas redes BP. Estas funções são definidas como funções

Leia mais

Aprendizagem de Máquina - 2. Prof. Júlio Cesar Nievola PPGIa - PUCPR

Aprendizagem de Máquina - 2. Prof. Júlio Cesar Nievola PPGIa - PUCPR Aprendizagem de Máquina - 2 Prof. Júlio Cesar Nievola PPGIa - PUCPR Inteligência versus Aprendizado Aprendizado é a chave da superioridade da Inteligência Humana Para que uma máquina tenha Comportamento

Leia mais

SCC Capítulo 9 Indução de Árvores de Decisão

SCC Capítulo 9 Indução de Árvores de Decisão Indução de Árvores de Decisão SCC-630 - Capítulo 9 Indução de Árvores de Decisão João Luís Garcia Rosa 1 1 Departamento de Ciências de Computação Instituto de Ciências Matemáticas e de Computação Universidade

Leia mais

ESTUDO DOS PARAMETROS DE UM ALGORITMO GENÉTICO PARA POSTERIOR USO NA SOLUÇÃO DE PROBLEMAS DO TIPO JOB-SHOP

ESTUDO DOS PARAMETROS DE UM ALGORITMO GENÉTICO PARA POSTERIOR USO NA SOLUÇÃO DE PROBLEMAS DO TIPO JOB-SHOP ESTUDO DOS PARAMETROS DE UM ALGORITMO GENÉTICO PARA POSTERIOR USO NA SOLUÇÃO DE PROBLEMAS DO TIPO JOB-SHOP Gilson Rogério Batista, Gideon Villar Leandro Universidade Regional do Noroeste do Estado do Rio

Leia mais

Aprendizado de Máquina

Aprendizado de Máquina Aprendizado de Máquina O que é Aprendizado? Memorizar alguma coisa Aprender fatos por meio de observação e exploração Melhorar habilidades motoras/cognitivas por meio de prática Organizar novo conhecimento

Leia mais

LÓGICA NEBULOSA CONTEÚDO

LÓGICA NEBULOSA CONTEÚDO LÓGICA NEBULOSA Marley Maria B.R. Vellasco ICA: Núcleo de Pesquisa em Inteligência Computacional Aplicada PUC-Rio CONTEÚDO Introdução Introdução, Objetivo e Histórico Conceitos Básicos Definição, Características

Leia mais

23/05/12. Consulta distribuída. Consulta distribuída. Objetivos do processamento de consultas distribuídas

23/05/12. Consulta distribuída. Consulta distribuída. Objetivos do processamento de consultas distribuídas Processamento de Consultas em Bancos de Dados Distribuídos Visão geral do processamento de consultas IN1128/IF694 Bancos de Dados Distribuídos e Móveis Ana Carolina Salgado acs@cin.ufpe.br Bernadette Farias

Leia mais

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Introdução

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Introdução Universidade Federal do Paraná Departamento de Informática Reconhecimento de Padrões Introdução Luiz Eduardo S. Oliveira, Ph.D. http://lesoliveira.net Objetivos Introduzir os conceito básicos de reconhecimento

Leia mais

Métodos de Inferência Fuzzy

Métodos de Inferência Fuzzy Métodos de Inferência Fuzzy Prof. Paulo Cesar F. De Oliveira, BSc, PhD 16/10/14 Paulo C F de Oliveira 2007 1 Seção 1.1 Método de Mamdani 16/10/14 Paulo C F de Oliveira 2007 2 Professor Ebrahim Mamdani

Leia mais