Luís Fernando de Oliveira Jacintho

Transcrição

1 Luís Fernando de Oliveira Jacintho Redes Neuro-Fuzzy: Um Estudo de Caso em Diagnóstico de Alzheimer Monografia apresentada ao Centro de Matemática, Computação e Cognição - CMCC/UFABC - como parte dos requisitos necessários à obtenção do título de Bacharel em Ciência da Computação. Orientadora: Prof. a Dr. a Ana Carolina Lorena Universidade Federal do ABC 6 de Dezembro de 2010

2 Luís Fernando de Oliveira Jacintho Redes Neuro-Fuzzy: Um Estudo de Caso em Diagnóstico de Alzheimer Monografia apresentada ao Centro de Matemática, Computação e Cognição - CMCC/UFABC - como parte dos requisitos necessários à obtenção do título de Bacharel em Ciência da Computação. Orientadora: Prof. a Dr. a Ana Carolina Lorena Universidade Federal do ABC 6 de Dezembro de 2010

3 RESUMO As Redes Neurais Artificiais têm sido largamente utilizadas na solução de problemas de classificação de dados. Entre eles pode-se mencionar o diagnóstico de doenças a partir dos registros médicos de pacientes. Contudo, o modelo gerado por essa técnica pode ser considerado uma caixa preta, uma vez que os padrões extraídos por ela não são facilmente interpretáveis. Para sanar tal deficiência, modelos híbridos como as Redes Neuro-Fuzzy (RNFs) têm sido utilizados, unindo o arcabouço da Teoria de Conjuntos Fuzzy na obtenção de um modelo com melhor interpretabilidade. Outra característica interessante destes modelos é a possibilidade de representação de informações vagas. Neste trabalho estudou-se o uso de modelos RNFs em um estudo de caso envolvendo o auxílio ao diagnóstico da Doença de Alzheimer. iii

4 LISTA DE FIGURAS 2.1 Modelo Simplificado de um Neurônio Artificial Rede feedforward de camada única Rede feedforward de duas camadas Rede recorrente de duas camadas Representação do Modelo Perceptron Rede Multilayer Perceptron Sistema de Inferência Fuzzy. Adaptado de [Jang 1993] Sistema ANFIS equivalente ao modelo TSK. Adaptado de [Evsukoff e Almeida 2005] Exemplo de arquitetura FALCON Exemplo de arquitetura NEFCON equivalente ao modelo Mamdani Sistema internacional para posicionamento dos eletrodos do EEG Caption for LOF Caption for LOF Mapas de montagem das coerências, onde as linhas contínuas correspondem às coerências, e as linhas tracejadas às subtrações de sinais para cálculo da referência. Da esquerda para direita, de cima para baixo: Locatelli anteriores intra-hemisféricas, Locatelli posteriores intra-hemisféricas, Locatelli equidistantes intra-hemisféricas, Stevens intra-hemisféricas, Leuchter intra-hemisféricas, Trambaiolli inter-hemisféricas, Anghinah inter-hemisféricas e Pogarell intra-hemisféricas [cedido por Lucas R. Trambaiolli] Mapas de montagem dos picos de espectros. Da esquerda para direita, de cima para baixo: Picos com Referência Biauricular, Picos Bipolares Longitudinal, Picos Bipolares Transversa, Picos Bipolares Homólogos e Picos com Referência Cz [cedido por Lucas R. Trambaiolli] Exemplo de fronteira de decisão em SVM Exemplo árvore de decisão e suas regras Interface Gráfica da Função ANFISEDIT no Matlab Interface Gráfica da Ferramenta Weka Histograma dos Atributos de Pico de Espectro Histograma do Número de Regras Fuzzy Geradas pelas RNFs Histograma do Número de Regras Fuzzy Geradas pelas RNFs nos 10 Conjuntos de Dados. 39 iv

5 LISTA DE TABELAS 4.1 Comparação entre as RNAs e os FIS Correspondência entre letras e localização do Sistema Internacional Atributos Selecionados para o Pico de Espectro Conjuntos de Dados de EEG Utilizados Resultados Obtidos por Época para as Coerências Resultados Obtidos por Paciente para as Coerências Resultados Obtidos para o Pico de Espectro Resultados Obtidos para o Pico de Espectro Com e Sem Seleção de Atributos Conjuntos de Dados Utilizados em Experimentos Adicionais Resultados Obtidos nos Experimentos Adicionais B.1 Resultado Detalhado por Paciente v

6 SUMÁRIO Resumo Lista de Figuras Lista de Figuras Lista de Tabelas Lista de Tabelas Sumário ii iv iv v v vi 1 Introdução Objetivos Organização da Monografia Redes Neurais Artificiais Definições Básicas O Neurônio Artificial Funções de Ativação Arquiteturas de Redes Processos de Aprendizagem Redes Multilayer Perceptron Considerações Finais Sistemas Fuzzy Teoria de Conjuntos Fuzzy Operações Fuzzy Básicas Variáveis Linguísticas Sistemas de Inferência Fuzzy Modelo de Mamdani Modelo de Takagi-Sugeno-Kang (TSK) Considerações Finais Sistemas Híbridos Neuro-Fuzzy RNAs x FIS Modelos de Redes Neuro-Fuzzy Adaptive-Network-Based Fuzzy Inference System (ANFIS) Fuzzy Adaptive Learning Control Network (FALCON) Neuro-Fuzzy Control (NEFCON) Considerações Finais Diagnóstico de Doenças Cognitivas 21 vi

7 SUMÁRIO vii 5.1 Eletroencefalografia (EEG) Diagnóstico de Alzheimer Considerações Finais Experimentos Conjunto de Dados Dados de EEG Pré-Processamento Atributos Coerências Picos de Espectro Seleção de Atributos Outras Técnicas de AM Ferramentas Computacionais Fuzzy Logic Toolbox (Matlab) Weka Metodologia e Resultados Coerências Resultados Discussão dos Resultados Picos de Espectro Resultados Discussão Outros Experimentos Metodologia Resultados Discussão Considerações Finais Conclusão Principais Resultados Trabalhos Futuros R Referências 43 Apêndices A Atributos Selecionados para Experimentos 48 B Resultado Detalhado por Paciente 52

8 C A P Í T U L O 1 INTRODUÇÃO Desde o surgimento de computadores eletrônicos, a busca pela construção de máquinas inteligentes sempre fascinou muitos cientistas. Por isso, vários pesquisadores buscam emular alguns aspectos observados em sistemas biológicos que apresentam comportamento inteligente. As Redes Neurais Artificiais (RNAs) e os Sistemas Fuzzy são exemplos destes sistemas. As RNAs foram de fato inspiradas em um sistema biológico, o cérebro. Já os Sistemas Fuzzy buscam um comportamento próximo ao observado em sistemas naturais, o de raciocínio incerto [Iyoda 2000]. As RNAs são uma alternativa para a solução de diversos problemas complexos, uma vez que a representação interna e o paralelismo inerente à sua arquitetura possibilitam um desempenho superior aos modelos convencionais para alguns tipos de problemas [Braga, Carvalho e Ludermir 2007]. Entretanto, uma de suas grandes deficiências é que, em geral, muito pouco pode-se dizer sobre o conhecimento codificado na rede, ou seja, os modelos gerados não são compreensíveis para os seres humanos. Esse último aspecto, em particular, é fundamental para a solução de diversos problemas. Modelos híbridos como as Redes Neuro-Fuzzy (RNF) provêm o arcabouço dos Sistemas Fuzzy na obtenção de um modelo de RNA com melhor interpretabilidade. Na Medicina, por exemplo, é crucial que os modelos computacionais utilizados no apoio ao profissional provejam a capacidade de explicar as decisões que recomendam. Além disso, nesse domínio ainda é aplicado o princípio de medir tudo que é mensurável e tentar quantificar o que ainda não é mensurável. Entretanto, algumas limitações fundamentais já foram reconhecidas, como o conhecimento do mundo real, que é caracterizado pela incompletude, imprecisão e inconsistência [Mahfouf, Abbod e Linkens 2001]. Desta maneira, as RNFs permitem definir entidades médicas inexatas como conjuntos fuzzy, tornando-se uma abordagem apropriada para a resolução de problemas nesta área. Deste modo, o escopo do presente trabalho tem como foco de atuação o estudo das Redes Neuro- Fuzzy, bem como sua aplicação no auxílio ao diagnóstico de uma enfermidade cognitiva conhecida, a Doença de Alzheimer (DA). A DA é a forma mais comum de demência, geralmente afetando pessoas acima dos 65 anos [Brookmeyer, Gray e Kawas 1998]. A doença se manifesta de maneira única em cada paciente, porém existem sintomas em comum, como episódios de falha de memória, lentidão de raciocínio e pequenas confusões mentais [Lent 2005]. Muitas vezes os primeiros sintomas são confundidos com estresse ou problemas de idade. Antes de tornar-se totalmente aparente, a doença desenvolve-se por um período de tempo indeterminado e o único método de se obter um diagnóstico definitivo se dá através de uma análise histológica do cérebro (necropsia ou biópsia) [Terry 1994]. Um dos métodos atualmente empregados no auxílio ao diagnóstico de DA é a análise dos sinais de eletroencefalograma (EEG) de pacientes. A análise de padrões presentes nesses dados permite obter um diagnóstico inicial dessa demência. Em [Trambaiolli et al. 2009], por exemplo, diferentes carac- 1

9 1.1. Objetivos 2 terísticas extraídas dos sinais de EEG foram submetidas a uma técnica de Aprendizado de Máquina (AM) [Mitchell 1997], as Máquinas de Vetores de Suporte (Support Vector Machines - SVM) [Cristianini e Shawe-Taylor 2000]. Outra técnica de AM comumente utilizada na análise de sinais de EEG é a RNA [Abe, Lopes e Anghinah 2007, Cho et al. 2003, Kim et al. 2005, Schetinin 2001, Stepenosky et al. 2005, Yagneswaran, Baker e Petrosian 2002]. Contudo, como visto anteriormente, ambas RNAs e SVMs impossibilitam uma compreensão direta dos padrões extraídos dos dados e que influenciam no diagnóstico. 1.1 Objetivos Esse projeto de graduação tem como objetivo investigar a estrutura e funcionamento das redes neurofuzzy, possibilitando uma visão ampla do modelo. De forma a tornar melhor a compreensão do sistema, optou-se por estudar sua aplicação no auxílio ao diagnóstico de DA, permitindo que se crie modelos inteligentes e interpretáveis no diagnóstico da doença. Desta maneira, é possível conhecer quais características dos sinais de EEG são consideradas mais discriminatórias no diagnóstico de pacientes normais e com DA. Segundo as motivações anteriormente apresentadas, espera-se que este modelo consiga de forma mais robusta lidar com incertezas e ruídos inerentes aos exames de EEG. Inicialmente foi realizado o estudo e compreensão das RNFs, possibilitando a escolha de um modelo para uso no diagnóstico de DA. Deve-se salientar que o trabalho foi realizado com a cooperação de um médico especialista em EEG e DA, Prof. Dr. Renato Anghinah, do Hospital das Clínicas da Universidade de São Paulo. O projeto também é conjunto ao de outro aluno em nível de Iniciação Científica, o qual já realizou a extração das características dos sinais contidos em um conjunto de dados de EEG [Trambaiolli et al. 2009]. Esse mesmo conjunto de dados foi utilizado em alguns dos experimentos realizados neste trabalho. 1.2 Organização da Monografia Esta monografia está estruturada como segue: no Capítulo 2 são apresentadas as RNAs, desde seus conceitos básicos até seu algoritmo de treinamento. No Capítulo 3 os Sistemas de Inferência Fuzzy são descritos, incluindo sua base teórica, a Teoria dos Conjuntos Fuzzy. No Capítulo 4 são apresentados os Sistemas Híbridos Neuro-Fuzzy e seus principais modelos. No Capítulo 5 são descritos alguns conceitos sobre a eletroencefalografia e o diagnóstico de Alzheimer. No Capítulo 6 são apresentados os experimentos e resultados obtidos. Finalmente, o Capítulo 7 conclui essa monografia.

10 C A P Í T U L O 2 REDES NEURAIS ARTIFICIAIS Na busca pela construção de máquinas inteligentes (ou com comportamento inteligente), um modelo que ocorre naturalmente é o do cérebro [Rich e Knight 1994], cujo processamento de informações é altamente complexo, não-linear e paralelo. O cérebro organiza suas unidades de processamento, conhecidas como neurônios, de modo que possa realizar algumas tarefas muito mais rapidamente que qualquer computador atual [Haykin 1999]. Deste ponto de vista, tem-se o desenvolvimento das Redes Neurais Artificiais. De uma maneira mais geral, uma RNA pode ser vista como um sistema composto por unidades de processamento simples, capazes de calcular algumas funções matemáticas, dispostas em uma ou mais camadas, interligadas por conexões. Na maioria dos modelos de RNAs, as conexões possuem pesos associados, que armazenam o conhecimento adquirido e ponderam a entrada recebida por cada neurônio [Braga, Carvalho e Ludermir 2007]. A forma como o conhecimento é adquirido e armazenado em uma RNA se dá por um processo de aprendizagem (ou treinamento), de maneira semelhante às redes neurais biológicas. O procedimento utilizado para realizar o treinamento, conhecido como algoritmo de aprendizado, tem por função modificar os pesos das conexões da RNA de uma forma ordenada, a fim de alcançar o objetivo da rede [Haykin 1999]. Neste capítulo são apresentados os principais conceitos de RNA. Na Seção 2.1 são apresentadas as definições básicas de uma RNA, ou seja, a unidade de processamento, a função de ativação e as arquiteturas mais comuns. Na Seção 2.2 são descritos os processos que podem ser empregados para o treinamento de uma RNA. Na Seção 2.3 são apresentadas as redes Multilayer Perceptron, o modelo mais conhecido de RNA. Finalizando o capítulo, a Seção 2.4 apresenta as considerações finais sobre as RNAs. 2.1 Definições Básicas A seguir são apresentados alguns conceitos básicos sobre RNAs, fundamentais para o entendimento da estrutura da maiorias das RNFs. Na Seção é descrito o conceito do neurônio artificial, o componente básico de uma RNA. Na Seção são apresentadas as funções de ativação mais utilizadas nos neurônios artificiais. Finalmente, as principais arquiteturas de RNA são descritas na Seção

11 2.1. Definições Básicas O Neurônio Artificial O neurônio é a unidade de processamento fundamental de uma rede neural. Por isso torna-se necessária a definição de um modelo de neurônio artificial para as RNAs. Na Figura 2.1 é apresentado um modelo mais simples de neurônio artificial, proposto por McCulloch e Pitts (MCP) [Haykin 1999]. Figura 2.1: Modelo Simplificado de um Neurônio Artificial No modelo ilustrado na Figura 2.1 temos: x i : sinais de entrada; w i : pesos sinápticos. Estes valores podem ser positivos ou negativos, representando sinapses excitatórias ou inibitórias, respectivamente; Σ: somatório dos sinais de entrada multiplicados pelos pesos de suas conexões, sendo que y denota o resultado deste somatório, e é denominado nível de ativação do neurônio; ϕ: Função de Ativação que limita a amplitude da saída do neurônio. Tipicamente, a saída é limitada entre os valores [0, 1] ou [-1, 1]; b: bias, que tem o efeito de aumentar a entrada da rede à função de ativação. Esta entrada também pode ser diminuída impondo a ela um termo denominado threshold ao invés do bias, que é o negativo deste; y: saída do neurônio, dada por ϕ(y b). Alternativamente, o bias pode ser representado por um novo nó de entrada em cada camada da RNA, exceto a última, com valor fixo em 1. Estes nós são então conectados a cada neurônio da camada subsequente, representando um novo peso a ser ponderado em cada neurônio Funções de Ativação A função de ativação pode assumir diferentes formas [Haykin 1999]. Entre as principais, temos: Função Linear: utilizada em alguns modelos de RNA, é representada pela Equação 2.1 em que a é o coeficiente angular e b o coeficiente linear. ϕ(x) = ax + b (2.1) Função Treshold ou Limiar: usada originalmente no modelo MCP e é representada pela Equação 2.2. { 1 se x 0 ϕ(x) = (2.2) 0 (ou 1) se x < 0

12 2.1. Definições Básicas 5 Função Sigmoidal: é a função mais utilizada na definição de uma RNA multicamadas. Seu uso é interessante pelo fato de ser contínua e diferenciável, o que não ocorre, por exemplo, com a função threshold. Um exemplo que produz resultados no intervalo [0,1] é fornecido pela Equação 2.3, em que a é o grau de inclinação Sigmoid. Para o caso em que se deseja produzir saídas no intervalo [-1,1], pode-se utilizar a função Tangente Hiperbólica, representada pela Equação ϕ(x) = (2.3) 1 + exp( ax) ϕ(x) = tanh( x 2 ) = 1 exp( x) 1 + exp( x) Função RBF (Radial Basis Function): essa função é comumente utilizada na definição das RNAs de tipo RBF. A principal função de base radial é a função gaussiana, apresentada na Equação 2.5, em que µ é o centro (ponto médio) e r é o raio de abertura da função. O sistema neurofuzzy ANFIS (Seção 4.2.1) é baseado na equivalência funcional, sob certas restrições, entre os sistemas fuzzy TSK (Seção 3.2.2) e as Redes RBF. Essa equivalência é demonstrada em [Evsukoff e Almeida 2005]. ( (x µ) 2 ) ϕ(x) = exp (2.5) Arquiteturas de Redes Por se tratarem de modelos simplificados, os neurônios individuais possuem pouca capacidade computacional, independentemente da função de ativação escolhida. Porém, quando conectados como uma rede neural, eles são capazes de resolver problemas de complexidade elevada. A definição da arquitetura da rede para a resolução de um determinado problema depende de vários fatores, como complexidade do problema, dimensão do espaço de entrada, características dinâmicas ou estáticas e representatividade dos dados. A seguir são apresentadas as principais arquiteturas de RNA [Braga, Carvalho e Ludermir 2007]: 1. Redes Feedforward de Camada Única: é a estrutura mais simples de RNA, possuindo uma única camada de neurônios. O sinal se propaga da entrada em direção às saídas. Consegue resolver apenas problemas linearmente separáveis. Sua estrutura é apresentada na Figura 2.2. r 2 (2.4) Figura 2.2: Rede feedforward de camada única 2. Redes Feedforward de Camadas Múltiplas: essa estrutura é semelhante à anterior, porém a- presenta uma ou mais camadas adicionais que conferem à RNA maior capacidade computacional e universalidade na aproximação de funções contínuas. Um exemplo com duas camadas é apresentado na Figura 2.3. As Redes Multilayer Perceptron (Seção 2.3), por exemplo, utilizam esta arquitetura.

13 2.2. Processos de Aprendizagem 6 Figura 2.3: Rede feedforward de duas camadas 3. Redes Recorrentes: A principal característica desse tipo de rede é a existência de conexões entre neurônios de um mesmo nível ou entre neurônios de saída e neurônios de camadas anteriores. Essa estrutura é muito utilizada na resolução de problemas que envolvem processamento temporal. Na Figura 2.4 é mostrado um exemplo da estrutura anterior com adição de conexões recorrentes. Figura 2.4: Rede recorrente de duas camadas 2.2 Processos de Aprendizagem Uma das principais características das RNAs é sua capacidade de aprender por meio de exemplos. A etapa de aprendizado de uma RNA consiste em um processo iterativo de ajuste dos pesos das conexões, que armazenam o conhecimento que a rede adquiriu do ambiente externo. De um modo geral, o valor do vetor de pesos w(t + 1) no instante t + 1 pode ser escrito conforme Equação 2.6, onde w(t) e w(t +1) representam os valores dos pesos nos instantes t e t +1, respectivamente, e w(t) é o ajuste aplicado. w(t + 1) = w(t) + w(t) (2.6) Os algoritmos de aprendizado diferem, basicamente, na maneira como w(t) é calculado. Há vários algoritmos diferentes para treinamento de redes neurais, sendo que eles podem ser agrupados em dois paradigmas principais: aprendizado supervisionado e aprendizado não-supervisionado. No aprendizado supervisionado, o algoritmo recebe um conjunto de pares de exemplos na forma (x, y d ), em que x corresponde a um vetor de dados de entrada e y d corresponde à saída desejada. O treinamento é então realizado com a presença de um supervisor externo, que estimula as entradas

14 2.3. Redes Multilayer Perceptron 7 da rede com os padrões de entrada e observa a saída produzida, comparando-a com a saída desejada. Como a saída da rede é calculada em função dos pesos das conexões, estes são ajustados a fim de aproximar a saída da rede da saída desejada. O exemplo mais conhecido de aprendizado supervisionado é o aprendizado por correção de erros. A forma genérica para a atualização dos pesos desse método considera o w(t) da Equação 2.6 como mostrado na Equação 2.7, em que n é o número de neurônios, η é a taxa de aprendizado, e(t) é uma medida de erro, geralmente dada por e(t) = y d y(t), em que y(t) representa a saída da rede para um determinado exemplo de entrada no instante t, e x i (t) é a entrada do neurônio i. Dessa maneira, os algoritmos que utilizam aprendizado por correção de erro ajustam os pesos através da combinação da Equação 2.6 e da Equação 2.7. n n w(t) = w i (t) = ηe(t)x i (t) (2.7) i=1 Diferentemente do aprendizado supervisionado, no aprendizado não-supervisionado não há o papel do supervisor para verificar se o resultado da rede é adequado ou não. Nesse método de treinamento apenas o vetor de dados de entrada está disponível para o algoritmo, que tenta aprender através dos padrões encontrados nos dados. Desta forma, regularidade e redundância nas entradas são fundamentais para o funcionamento deste método. O aprendizado não supervisionado é geralmente aplicado a problemas que envolvam a descoberta de características estatisticamente relevantes nos dados de entrada, como descoberta de agrupamentos. Existe ainda um terceiro modo de realizar o aprendizado, conhecido como por reforço. Embora a classificação do aprendizado por reforço seja muito discutida, na literatura ele é muitas vezes considerado como um caso particular de aprendizado supervisionado [Braga, Carvalho e Ludermir 2007]. Nesse caso, o supervisor é trocado por um crítico que busca maximizar o sinal de reforço. Assim, o aprendizado por reforço pode ser visto como um método de tentativa e erro em que as ações que geram estados satisfatórios são reforçadas, enquanto que as que geram um estado indesejado são penalizadas. i=1 2.3 Redes Multilayer Perceptron O perceptron é a forma mais simples de RNA. Foi proposto por Rosenblatt em 1958 e é utilizado na classificação de dados linearmente separáveis, isto é, dados que podem ser separados por um hiperplano. A função de ativação dos neurônios é dada pela função treshold. O algoritmo utilizado para seu treinamento é baseado em uma regra de correção de erro. Sua representação pode ser visualizada na Figura 2.5. Figura 2.5: Representação do Modelo Perceptron Como este tipo de rede tem a limitação de só classificar dados linearmente separáveis, foi proposto então o uso de uma generalização da Rede Perceptron, surgindo assim as Redes Perceptron Multicamadas (Multilayer Perceptron - MLP). Essas redes superam as limitações impostas pela Perceptron

15 2.3. Redes Multilayer Perceptron 8 de apenas uma camada e são um tipo de arquitetura de rede feedforward (sinal se propaga somente em um sentido, não havendo realimentação da rede com novos sinais produzidos) multicamadas. Uma rede MLP possui três caraterísticas básicas [Haykin 1999]: A função de ativação dos neurônios deve ser não linear (Sigmoid ou Tangente Hiperbólica, por exemplo); Possui uma ou mais camadas de neurônios ocultos; Possui um alto grau de conectividade entre seus nós. Um exemplo esquemático deste tipo de rede é ilustrado na Figura 2.6, em que é mostrada uma rede MLP com n unidades de entrada, k neurônios intermediários e c neurônios de saída. Figura 2.6: Rede Multilayer Perceptron No projeto de uma RNA, além da escolha de uma arquitetura que modele o problema adequadamente, também deve ser considerada a fase de treinamento da rede. O treinamento de uma rede MLP pode ser realizado por meio da utilização de diferentes técnicas e algoritmos. Porém, o mais referenciado e utilizado é o algoritmo Back-Propagation, que pertence ao paradigma de aprendizado supervisionado. Este algoritmo é mostrado no Algoritmo 2.1. O funcionamento do algoritmo Back-Propagation segue basicamente o mesmo objetivo da regra de correção de erro utilizada nas Redes Perceptron. Porém, a presença de múltiplas camadas nas redes MLP exigiu adaptações. Os ajustes nos pesos das conexões da rede são realizados a partir da propagação do erro obtido na última camada da rede, sendo o nome error back-propagation devido a essa característica. Desta maneira, em cada camada são realizados cálculos necessários ao ajuste dos pesos da rede minimizando a função quadrática do erro obtido nas predições para os dados de treinamento. O funcionamento deste algoritmo consiste basicamente da iteração de dois passos: forward e backward. O passo forward (linhas 5 a 10 do Algoritmo 2.1), consiste da propagação do sinal de entrada. Nesta fase os pesos sinápticos da rede estão fixos. Já no passo backward (linhas 13 a 21 do Algoritmo 2.1) os pesos são ajustados seguindo a regra do algoritmo Back-Propagation. Esses passos são realizados em várias iterações pelos exemplos até que os parâmetros da rede estabilizem seu valor e o erro médio quadrático sobre todo o conjunto de treinamento seja menor que um mínimo aceitável. A adaptação do Back-Propagation através da utilização de uma constante de momento evita oscilações durante o processo de minimização, melhorando a busca por uma solução global [Braga, Carvalho e Ludermir 2007].

16 2.4. Considerações Finais 9 Algoritmo 2.1 Algoritmo Back-Propagation [Haykin 1999] 1: Inicializar pesos da rede com valores aleatórios no intervalo [0, 1] ou [-1, 1] 2: repita 3: erro_total 0 4: para cada exemplo de treinamento faça 5: x exemplo de treinamento 6: para cada camada i 1 a n c da rede faça 7: Apresentar x à camada i 8: y saídas dos neurônios da camada i 9: fim-para 10: saída_produzida y 11: erro saída_produzida - saída_desejada 12: erro_total erro_total + erro 13: para cada camada i n c a 1 da rede faça 14: para cada nó n i j da i -ésima camada faça 15: se i = n c então 16: Ajustar pesos associados ao nó diretamente 17: senão 18: Ajustar pesos associados ao nó ponderado pelo peso da conexão com a camada i : fim-se 20: fim-para 21: fim-para 22: fim-para 23: até que erro_total < limiar 2.4 Considerações Finais Neste capítulo foi apresentada uma introdução às RNAs. Foi então descrito um modelo de RNA multicamadas, as redes MLP, juntamente com o algoritmo mais comum para seu treinamento, o Back- Propagation. Várias das RNFs propostas na literatura são RNAs multicamadas, algumas das quais usam o algoritmo BackPropagation em alguma etapa de seu treinamento. Para a caracterização completa de uma RNA devem ser levados em conta três componentes básicos [Eberhart e Dobbins 1990]: Uma Arquitetura, ou seja, como os nós da rede estão conectados e como recebem suas entradas e saídas; Uma função de transferência ou ativação, descrita na Seção 2.1.2; A forma de aprendizado, ou seja, o paradigma e algoritmo de aprendizado utilizados para treinar a rede. Em geral, entre as vantagens das RNAs estão a robustez a ruídos nos dados e sua habilidade em representar funções lineares e não-lineares de várias formas e complexidades. As desvantagens incluem a dificuldade em determinar a sua topologia, a necessidade de ajuste de parâmetros e a dificuldade na interpretação dos conceitos aprendidos pela RNA, que são codificados em seus pesos.

17 C A P Í T U L O 3 SISTEMAS Fuzzy O desejo de resolver problemas cada vez mais complexos tem aproximado cada vez mais as máquinas da forma de raciocínio humano. Os seres humanos são capazes de lidar com processos bastante complexos, baseados em informações imprecisas ou aproximadas. A estratégia por eles adotada é também de natureza imprecisa e geralmente possível de ser expressa em termos linguísticos. Os sistemas fuzzy foram desenvolvidos para traduzir em termos matemáticos a informação imprecisa expressa por um conjunto de regras linguísticas. Uma vez que o raciocínio humano possa ser representado por regras do tipo SE-ENTÃO, pode-se construir um algoritmo passível de implementação em um computador. O resultado é um sistema de inferência baseado em regras, no qual a Teoria de Conjuntos Fuzzy e a lógica subjacente fornecem o ferramental matemático para se lidar com tais regras imprecisas. Neste capítulo são apresentados os conceitos básicos dos sistemas fuzzy. Na Seção 3.1 é apresentada a base matemática que garante o funcionamento de qualquer sistema fuzzy. Na Seção 3.2 são descritos os sistemas de inferência fuzzy e seus principais modelos. Finalizando o capítulo, a Seção 3.3 apresenta as considerações finais sobre os sistemas fuzzy. 3.1 Teoria de Conjuntos Fuzzy A teoria dos conjuntos fuzzy foi desenvolvida na década de 1960 por Lofti Zadeh a fim de tratar o aspecto vago das informações [Zadeh 1965]. Essa teoria pode ser tratada como um caso mais geral da teoria clássica dos conjuntos em que, quando relacionada à lógica booleana, é definida uma função, dita função característica, χ : U {0,1} indicando se um dado valor pertence (1) ou não (0) a um conjunto de universo U. Já um conjunto fuzzy é caracterizado por uma função característica real, comumente denominada função de pertinência, µ : U [0,1], representando assim o grau de pertinência (de 0% a 100%) de um dado valor ao conjunto de universo U. De acordo com [Huamaní 2003], o conhecimento sobre os diversos sistemas geralmente é fuzzy e a representação desses conhecimentos utilizando modelos clássicos resulta em uma representação complexa e pouco eficiente. Assim, a teoria de conjuntos fuzzy e a lógica subjacente podem ser vistos como uma ponte de aproximação da lógica executada pelas máquinas ao raciocínio humano Operações Fuzzy Básicas Assim como a teoria dos conjuntos clássica, a lógica fuzzy também apresenta três operadores básicos: Complemento, União e Intersecção. A seguir é apresentada uma descrição destes operadores. 10

18 3.1. Teoria de Conjuntos Fuzzy Complemento: O complemento de um conjunto fuzzy A, denotado por A, é definido pela função de pertinência da Equação 3.1. O operador de complemento corresponde ao conectivo booleano NÃO. µ A (x i ) := 1 µ A (x i ) (3.1) 2. União: A união de dois conjuntos fuzzy A e B é definida de diversas maneiras na literatura, podendo ser denotada por A B ou A+B. A forma mais geral de definir esta operação é por meio de uma família de funções, conhecidas como normas S, que possuem as seguintes propriedades: Comutatividade: xsy = ysx; Associatividade: xs(ysz) = (xsy)sz; Monotonicidade: x y e w z xsw ysz; Coerência nos contornos: 0Sx = x e xs1 = 1. Desta forma, qualquer função da família das normas S pode ser utilizada como um operador generalizado da união entre conjuntos fuzzy. Inclusive, existem trabalhos que apontam vantagens desta substituição de operadores para certos tipos de aplicações [Pedrycz 1993]. De qualquer forma, a união corresponde sempre ao conectivo booleano OU. Em particular, [Zadeh 1965] propôs uma definição para esta operação, como é mostrado na Equação 3.2. µ A B (x i ) := max[µ A (x i ),µ B (x i )] (3.2) 3. Intersecção: De maneira similar à união, a intersecção de dois conjuntos fuzzy A e B também é definida de diversas formas na literatura, como A B ou A.B. A generalização da operação também é possível, e neste caso ocorre por meio das chamadas normas T, que possuem as seguintes propriedades: Comutatividade: xt y = yt x; Associatividade: xt (ytz) = (xt y)tz; Monotonicidade: x y e w z xt w ytz; Coerência nos contornos: 0T x = 0 e 0T 1 = T. De qualquer forma, a intersecção corresponde sempre ao conectivo booleano E. Assim como para a união, [Zadeh 1965] propôs também um caso particular para a intersecção. Este é mostrado na Equação 3.3. µ A B (x i ) := min[µ A (x i ),µ B (x i )] (3.3) Variáveis Linguísticas De acordo com [Almeida e Evsukoff 2005], a idéia de uma variável linguística pode ser traduzida pela capacidade humana de classificar de modo impreciso as variáveis de um problema, em termos de conceitos qualitativos e não quantitativos. Dessa maneira, uma variável linguística é definida como uma entidade utilizada para representar de modo impreciso um conceito. As variáveis linguísticas admitem como valores apenas expressões linguísticas, como fraco, muito escuro, aproximadamente perto, entre outros.

19 3.2. Sistemas de Inferência Fuzzy 12 O valor de uma dada variável linguística pode ser representado como um conjunto fuzzy existente no universo de discurso no qual a variável está definida. Assim, cada conjunto fuzzy definido nesse universo é associado a um conceito linguístico que define um valor impreciso para a variável em questão. Desta maneira, as variáveis linguísticas são fundamentais nos sistemas fuzzy, pois fazem com que eles sejam capazes de capturar informações vagas e convertê-las para um número, facilmente manipulável em um computador e que resulta em um desempenho estável e robusto [Huamaní 2003]. 3.2 Sistemas de Inferência Fuzzy De um modo geral, um sistema de inferência fuzzy (ou Fuzzy Inference System - FIS) é composto de cinco blocos funcionais (Figura 3.1) [Jang 1993]: Figura 3.1: Sistema de Inferência Fuzzy. Adaptado de [Jang 1993] Uma base de regras contendo as regras de produção fuzzy; Uma base de dados, que define a função de pertinência dos conjuntos fuzzy utilizados nas regras; Uma unidade de tomada de decisão, que realiza as operações de inferência nas regras; Uma interface de fuzzificação, que transforma as entradas numéricas em graus que correspondam com os valores linguísticos; Uma interface de defuzzificação, que transforma os resultados da inferência em valores numéricos. Em geral, a base de regras e a base de dados são referenciados como uma base de conhecimento. A base de regras de um sistema fuzzy é a maneira mais comum de armazenamento de informações, sendo o conjunto de regras em que o mecanismo de inferência trabalhará. Uma regra de produção normalmente é formada por duas partes principais, como mostrado na Equação 3.4. se ant eced ent e então consequent e (3.4) O ant eced ent e é formado por um conjunto de condições que, quando satisfeitas, determinam o processamento do consequent e da regra por um mecanismo de inferência fuzzy. Este processo é denominado disparo de uma regra. Já o consequente é formado por um conjunto de ações que são geradas com o disparo da regra. Os consequent es das regras disparadas são processados em conjunto, gerando assim uma resposta determinística para cada variável de saída. Assim como as RNAs, os sistemas fuzzy também podem ser classificados como estáticos ou recorrentes. Sistemas fuzzy estáticos são modelos que realizam um processamento direto das informações, ou seja, sem realimentação. Existem ainda os sistemas fuzzy estáticos adaptativos. Esses são

20 3.2. Sistemas de Inferência Fuzzy 13 definidos como um sistema fuzzy em conjunto com um algoritmo de aprendizado. Deste modo, o algoritmo de aprendizado é utilizado para ajustar os parâmetros das bases de regras ou do sistema de inferência por meio de algum método de otimização. Já os sistemas fuzzy recorrentes são sistemas capazes de representar um comportamento dinâmico. O processamento do conhecimento em um sistema fuzzy ocorre a partir da definição de algumas propriedades na formação das regras de produção, a saber: como serão processados os antecedentes, quais os indicadores de disparo das regras e quais os operadores utilizados [Almeida e Evsukoff 2005]. A definição dessas propriedades é denominada modelo de inferência. A seguir são descritos os dois modelos mais conhecidos na literatura Modelo de Mamdani Na década de 1970, [Mamdani 1974] propôs que as regras de produção possuiriam relações fuzzy tanto em seus antecedentes como em seus consequentes. Uma regra típica deste modelo é mostrada na Equação 3.5, onde: x i são as entradas do sistema; y i são as saídas do sistema; A i e B i são os conjuntos fuzzy. se x 1 = A i e x 2 = A j então y 1 = B i e y 2 = B j (3.5) O modelo de Mamdani inclui módulos de interface que transformam as variáveis de entrada em conjuntos fuzzy (fuzzificação) e, posteriormente, os conjuntos fuzzy gerados na saída em grandezas numéricas proporcionais (defuzzificação). O processo de inferência neste modelo ocorre da seguinte maneira: os antecedentes de cada regra da base de regras são processados por meio da operação de intersecção fuzzy, gerando um grau de pertinência de ativação para cada regra. Todas as regras que possuírem um grau de pertinência de ativação maior do que zero irão contribuir para o cálculo da saída. Desta forma, os graus de pertinência de ativação das regras limitam os valores máximos dos conjuntos difusos de saída gerados pelas regras. Uma operação de união fuzzy em todas as regras compõe o valor final de cada variável de saída Modelo de Takagi-Sugeno-Kang (TSK) O modelo TSK surgiu na década de 1980 [Takagi e Sugeno 1985, Sugeno e Kang 1988] e é bastante similar ao modelo de Mamdani. Este modelo também utiliza uma base de regras condicionais de inferência, porém os consequentes das regras são formados por equações paramétricas que relacionam as entradas e as saídas do processo. Uma regra típica deste modelo é mostrada na Equação 3.6, em que φ é uma função pré-definida (normalmente representa uma combinação linear), y é a saída do sistema e x 1, x 2, A i e A j são como definidos anteriormente. se x 1 = A i e x 2 = A j então y = φ(x 1, x 2 ) (3.6) O processo de fuzzificação é bastante semelhante ao utilizado pelo modelo de Mamdani e a saída numérica é calculada diretamente pela soma das saídas das regras, ponderada pelos valores de ativação de cada uma delas.

21 3.3. Considerações Finais Considerações Finais Neste capítulo foi apresentada uma introdução aos FIS. Foram descritos alguns princípios fundamentais da Teoria de Conjuntos Fuzzy que provêm a ferramenta matemática para os FIS. Como será visto adiante, a maioria das RNFs na literatura implementam um FIS através da arquitetura de uma RNA. A teoria fuzzy vem sendo cada vez mais utilizada em sistemas que utilizam informações fornecidas por seres humanos e aplicadas desde ao controle de eletrodomésticos à medicina, com tendências a crescer cada vez mais, principalmente em sistemas híbridos incorporando conexionismo e técnicas evolutivas. No entanto, a maior dificuldade na criação de sistemas fuzzy encontra-se na definição dos termos linguísticos e das regras. Uma das maneiras de tratar este problema envolve os chamados sistemas neuro-fuzzy, em que estes parâmetros são aprendidos com a apresentação de pares (entrada, saída desejada) a uma rede neural, cujos nós computam basicamente operações de união e intersecção [Sandri e Correa 1999].

22 C A P Í T U L O 4 SISTEMAS HÍBRIDOS Neuro-Fuzzy Surgido a partir de meados da década de 1980, o termo neuro-fuzzy refere-se à combinação de RNAs e FIS, resultando em um sistema inteligente híbrido que potencializa as características destes dois importantes paradigmas [Evsukoff e Almeida 2005]. A rigor, qualquer sistema que misture estes paradigmas poderia ser denominado neuro-fuzzy, no entanto o termo é geralmente utilizado para um tipo específico de sistema que, de certa forma, incorpora os dois paradigmas. Nestes sistemas, os termos e regras de um sistema fuzzy são aprendidos mediante a apresentação de pares (entrada, saída desejada), apresentando dois comportamentos distintos em fases de aprendizado ou processamento de informação [Sandri e Correa 1999]. Neste capítulo são apresentados os conceitos básicos dos sistemas híbridos neuro-fuzzy. Na Seção 4.1 as RNAs são comparadas aos FIS. Na Seção 4.2 alguns importantes modelos de RNFs são brevemente descritos, com ênfase para o modelo ANFIS, pioneiro entre os sistemas neuro-fuzzy. Finalizando o capítulo, a Seção 4.3 apresenta as considerações finais sobre os sistemas neuro-fuzzy. 4.1 RNAs x FIS Como vistos nos capítulos anteriores, tanto as RNAs quanto os FIS apresentam vantagens e desvantagens em sua utilização. As RNAs são mais apropriadas para a criação de modelos a partir de conhecimento implícito em um conjunto de dados, enquanto os FIS são mais adequados quando se tem conhecimento explícito oriundo de um especialista. A principal motivação para fusão de ambas as técnicas vem da tentativa de associar as vantagens de cada abordagem e minimizar suas deficiências. A Tabela 4.1 apresenta uma comparação de algumas características das RNAs e dos FIS [Huamaní 2003, Abraham 2001]. Tabela 4.1: Comparação entre as RNAs e os FIS Característica RNA FIS Aquisição de Conhecimento Dados Numéricos Especialistas Método de Treinamento Algoritmos/Ajuste de Pesos Interação/Indução Interpretabilidade Difícil Explícita Tolerância a Falhas Alta Não evidente Robustez Alta Alta 15

23 4.2. Modelos de Redes Neuro-Fuzzy 16 A combinação destas técnicas incorpora o estilo de raciocínio humano dos sistemas fuzzy, através da utilização de conjuntos fuzzy e de um modelo linguístico consistindo de um conjunto de regras, e as propriedades de generalização provindas da capacidade de aprendizado das RNAs. A principal força dos sistemas neuro-fuzzy está no fato de serem aproximadores universais, com a capacidade de angariarem regras interpretáveis. Recentemente, diversas arquiteturas híbridas têm sido propostas, diferenciando-se basicamente no tipo de neurônio utilizado, tipo de informação processada pela rede e na natureza das conexões. Enquanto algumas arquiteturas utilizam neurônios lógicos, processam dados reais e utilizam pesos reais, outras arquiteturas utilizam neurônios do tipo perceptron, processam dados fuzzy e empregam pesos fuzzy. 4.2 Modelos de Redes Neuro-Fuzzy De uma maneira geral, as RNFs podem ser divididas em três paradigmas de integração: Cooperativo, Concorrente e Fundido. No modelo Cooperativo, os mecanismos de aprendizado das RNAs são utilizados como uma ferramenta para determinação dos parâmetros do FIS, como as funções de pertinência dos dados aos conjuntos fuzzy ou a extração das regras fuzzy a partir dos dados de treinamento. Já no modelo Concorrente, a RNA auxilia o FIS continuamente, determinando seus parâmetros e, quando necessário, processando a saída do FIS. Em um modelo Fundido, a RNA também é utilizada para determinação dos parâmetros dos FIS, mas geralmente as duas técnicas compartilham as estruturas de dados e as representações de conhecimento. O modelo Fundido é o mais utilizado nas aplicações de RNF. Uma maneira comum de aplicar os algoritmos de aprendizado nos sistemas fuzzy é construir uma arquitetura de RNA capaz de representá-lo, utilizando, por exemplo, funções de ativação nos neurônios de uma camada que representam as funções de pertinência fuzzy. Entretanto, os algoritmos de treinamento convencionais para RNA, como o Back-Propagation por exemplo, podem não funcionar, devido ao fato das funções utilizadas no processo de inferência fuzzy nem sempre serem diferenciáveis. Algumas maneiras de contornar esse problema são utilizar funções diferenciáveis no processo de inferência ou adaptar o algoritmo de aprendizado da RNA. A seguir são brevemente apresentadas outras importantes arquiteturas de RNFs encontradas na literatura. O modelo ANFIS, escolhido para uso neste trabalho, é descrito em maiores detalhes Adaptive-Network-Based Fuzzy Inference System (ANFIS) O ANFIS é uma rede neural proposta por [Jang 1993] cuja ideia básica é implementar um sistema de inferência fuzzy através de uma arquitetura paralela distribuída, no caso a RNA, de forma que os algoritmos de aprendizado possam ser utilizados para ajustar o sistema de inferência. Esta estrutura implementa um FIS do tipo TSK (Seção 3.2.2) com funções lineares ou constantes nos consequentes das regras que formam o sistema, tendo estas regras pesos unitários. Na Figura 4.1 é ilustrado um exemplo de rede com a arquitetura ANFIS. Os neurônios representados com um quadrado são neurônios adaptativos, ou seja, possuem parâmetros, enquanto os neurônios representados com um círculo são neurônios fixos. Essa figura representa, por exemplo, um sistema de inferência fuzzy com duas entradas, x e y, e uma saída Φ. As regras fuzzy utilizadas neste exemplo são dadas pela Equação 4.1. O antecedente das regras nesse caso será calculado nas Camadas 1, 2 e 3; enquanto que o consequente será calculado nas Camadas 4 e 5. Regra 1: Se x = A 1 e y = B 1 então Φ 1 = p 1 x + q 1 y + r 1, Regra 2: Se x = A 2 e y = B 2 então Φ 2 = p 2 x + q 2 y + r 2. (4.1) A seguir apresenta-se a descrição das camadas que compõem a estrutura da rede ilustrada na Figura 4.1, relacionando-as com as regras fuzzy:

24 4.2. Modelos de Redes Neuro-Fuzzy 17 Figura 4.1: Sistema ANFIS equivalente ao modelo TSK. Adaptado de [Evsukoff e Almeida 2005] Camada 1: Cada nó desta camada computa o grau de pertinência das entradas com relação aos termos linguísticos associados a estes nós, ou seja, é a camada de fuzzificação do sistema. Qualquer função contínua e diferenciável pode ser utilizada como função de ativação nesta camada. Geralmente, as funções de pertinência utilizada são a função sino (Equação 4.2) ou a função gaussiana (Equação 4.3), em que {a i, b i e c i } (ou {a i, c i } para a gaussiana) é o conjunto de parâmetros, chamado de parâmetros de premissa, que fazem a forma da função variar para se adequar aos conjuntos fuzzy. µ Ai (x) = 1 [ ( ) ] 1 + x ci 2 bi a i [ ( ) x 2 ] ci µ Ai (x) = exp a i (4.2) (4.3) Camada 2: Cada nó desta camada, chamado de Π, corresponde a uma regra do conjunto fuzzy e utiliza um operador de norma T para calcular com que grau de pertinência o consequente da regra está sendo atendido, ou seja, a força de disparo da regra. A Equação 4.4 apresenta o cálculo de w i no exemplo da Figura 4.1. w i = µ Ai (x)t µ Bi (y),i = 1,2. (4.4) Camada 3: Os nós desta camada, chamados de N, são responsáveis por normalizar os níveis de disparo das regras. No exemplo da Figura 4.1, temos o cálculo de w i dado pela Equação 4.5. w i w i =,i = 1,2. (4.5) w 1 + w 2 Camada 4: Cada nó desta camada calcula o produto entre os níveis de disparo normalizados e o consequente da regra. A Equação 4.6 apresenta a saída dos neurônios desta camada, em que w i é a saída da camada 3 e {p i, q i, r i } é o conjunto de parâmetros consequentes. w i Φ i = w i (p i x + q i y + r i ) (4.6)

25 4.2. Modelos de Redes Neuro-Fuzzy 18 Camada 5: Esta é a camada de saída do sistema, ou seja, a camada de defuzzificação, e é composta por um único neurônio de ativação linear que computa o somatório ponderado de todas as entradas. No exemplo da Figura 4.1, a saída do sistema é dada pela Equação 4.7. Φ = i w i Φ i = i w i Φ i i w i (4.7) O ANFIS utiliza o algoritmo Back-Propagation para determinar os parâmetros antecedentes das regras (relacionados à função de pertinência), enquanto que o algoritmo Least Mean Square (LMS) é utilizado para determinar os parâmetros consequentes. Cada iteração do algoritmo pode ser dividida em duas partes: primeiramente, os dados de entrada são propagados e os parâmetros consequentes são estimados pelo método iterativo do LMS, enquanto que os parâmetros antecedentes são considerados fixos durante todo o ciclo através do conjunto de treinamento. Na segunda parte, as taxas de erros são retropropagadas e o Back-Propagation é utilizado para atualizar os parâmetros antecedentes, enquanto os parâmetros consequentes agora são mantidos fixos Fuzzy Adaptive Learning Control Network (FALCON) O sistema FALCON [Lin e Lee 1991] possui uma arquitetura de cinco camadas, sendo que a primeira camada apenas recebe os valores de entrada e passa para a próxima camada. A segunda camada é utilizada como operador de fuzzificação, em que cada nó pode representar uma função de pertinência simples ou pode ser composto por vários nós que computam uma função de pertinência complexa. A terceira camada é utilizada para determinar as precondições das regras fuzzy, enquanto que a quarta camada computa a consequência das regras. Na última camada existem dois nós linguísticos para cada variável de saída. Um é para o treinamento (saída desejada) e o outro é para a saída atual da rede. Na Figura 4.2 é ilustrado um exemplo de arquitetura FALCON. Figura 4.2: Exemplo de arquitetura FALCON O FALCON utiliza um algoritmo de aprendizado híbrido que compreende um algoritmo de aprendizado não-supervisionado para localizar o início da função de pertinência e das regras fuzzy e um algoritmo de gradiente descendente para otimizar o ajuste de parâmetros das funções de pertinência para produzir as saídas desejadas.

26 4.3. Considerações Finais Neuro-Fuzzy Control (NEFCON) O sistema NEFCON [Nauck e Kruse 1999] implementa o FIS do tipo Mamdani e é ilustrado na Figura 4.3. Suas conexões são ponderadas por conjuntos e regras fuzzy (em que µ i e γ i são os parâmetros das regras antecedentes e consequentes). O uso de um mesmo parâmetro em mais de uma conexão é chamado de peso compartilhado (representado por elipses desenhadas ao redor das conexões) e garante a integridade da base de regras. Neste modelo, a camada de entrada realiza a operação de fuzzificação, a camada intermediária representa a lógica de inferência, enquanto a unidade de saída é a interface de defuzzzificação. Figura 4.3: Exemplo de arquitetura NEFCON equivalente ao modelo Mamdani O processo de aprendizado deste modelo é híbrido e consiste da integração de aprendizado por reforço e o algoritmo BackPropagation. O NEFCON pode ser utilizado para aprender uma base de regras iniciais, caso não exista nenhum conhecimento a priori sobre o sistema, ou mesmo para otimizar uma base de regras definida manualmente. Este modelo possui duas variantes: o NEFPROX, para aproximação de funções, e o NEFCLASS, para tarefas de classificação. 4.3 Considerações Finais Neste capítulo foram apresentados os conceitos básicos das RNFs e alguns dos modelos mais importantes. O modelo ANFIS foi escolhido para utilização neste trabalho por ser o modelo mais difundido na literatura. Além disso existem vários trabalhos que empregam este modelo na classificação de sinais de EEG, como em [Gülera e Übeyli 2005, Vijila et al. 2007, Vatankhah e Yaghubi 2009], e alguns outros trabalhos relacionados à DA [Darvishi e Al-Ani 2007, Gómez et al. 2009]. É possível encontrar na internet algumas ferramentas computacionais que implementam os diferentes modelos de RNFs. O produto comercial mais difundido é o Matlab, que apresenta ferramentas tanto para trabalhar com RNAs ( Neural Network Toolbox) quanto para trabalhar com FIS (Fuzzy Logic Toolbox). Este último apresenta até mesmo uma função para trabalhar com o modelo ANFIS. Outra ferramenta que implementa o sistema ANFIS pode ser encontrada na URL /afs/cs/project/ai-repository/ai/areas/fuzzy/systems/anfis/.

27 4.3. Considerações Finais 20 Na URL podem ser obtidos softwares que implementam os modelos NEFCON e NEFCLASS, além de diversas publicações de seus autores. Estas ferramentas podem ser encontradas escritas em Java ou ainda em uma versão em Matlab, que precisa do Fuzzy Logic Toolbox e do Simulink para funcionar. Os experimentos desta monografia foram realizados utilizando-se a o Fuzzy Logic Toolbox para Matlab e os resultados obtidos são apresentados no Capítulo 6.

28 C A P Í T U L O 5 DIAGNÓSTICO DE DOENÇAS COGNITIVAS As doenças cognitivas, geralmente denominadas demências, são deteriorações mentais causadas por alterações físicas no cérebro. Em geral, as demências são caracterizadas por três sintomas principais: prejuízo da memória, problemas de comportamento (agitação, insônia, comportamentos inadequados, entre outros) e perda das habilidades adquiridas durante a vida. Os principais tipos de demência são Alzheimer, Vascular, Fronto-Temporal, entre outros. A Doença de Alzheimer é o tipo mais comum de demência e se manifesta geralmente nos idosos. Por conta dessa enorme incidência, tem havido um considerável interesse no diagnóstico precoce dessa patologia. Uma das ferramentas mais indicadas para o diagnóstico de demências é o EEG, um exame que registra as atividades elétricas que ocorrem no cérebro. Neste capítulo são apresentados os principais conceitos que envolvem o diagnóstico de doenças cognitivas. Na Seção 5.1 são descritos os fundamentos básicos sobre a técnica de eletroencefalografia, cujos sinais podem ser analisados no auxílio ao diagnóstico de DA. Na Seção 5.2 é apresentada a Doença de Alzheimer e alguns estudos sobre seu diagnóstico. Finalizando o capítulo, a Seção 5.3 apresenta as considerações finais do capítulo. 5.1 Eletroencefalografia (EEG) Em 1929 o psiquiatra alemão Hans Berger apresentou um método capaz de registrar fracas correntes elétricas geradas no cérebro humano sem a necessidade de se abrir o crânio, o eletroencefalograma (EEG) [Haas 2003]. O registro das correntes é realizado por um conjunto de eletrodos colocados sobre a pele do crânio do paciente. Estes registros são então enviados à caixa de eletrodos e, posteriormente, aos amplificadores do aparelho, responsáveis por amplificar os sinais obtidos (geralmente na casa dos micro volts) para valores legíveis [Montenegro et al. 2001]. Na maioria dos laboratórios os eletrodos são colocados em posições estabelecidas de acordo com o Método 10-20, conforme recomendado pela Federação Internacional das Sociedades de Encefalografia e Neurofisiologia. Este método, ilustrado na Figura 5.1, é baseado em medidas que constituem de 10% a 20% de duas distâncias fundamentais do crânio: uma longitudinal do Násio ao Ínio e outra transversal, que corresponde à distância entre os pontos pré-auriculares. Nessas medidas, são levadas em consideração as variações pertinentes ao tamanho da cabeça do paciente [Montenegro et al. 2001, Epstein 1995]. Por este método, as posições são nomeadas utilizando letras e números. Na Tabela 5.1 é mostrada a relação entre as letras utilizadas com a localização das linhas de eletrodos. Além das letras, os índices ímpares correspondem a eletrodos posicionados no hemisfério esquerdo, e os pares no direito. 21

29 5.1. Eletroencefalografia (EEG) 22 Figura 5.1: Sistema internacional para posicionamento dos eletrodos do EEG Os eletrodos da linha média são denominados zero ou z ou ainda 0 e, são representados por Fz, Cz e Pz [Montenegro et al. 2001, Epstein 1995]. Tabela 5.1: Correspondência entre letras e localização do Sistema Internacional Letra Fp F C P O T Localização Frontopolar Frontal Central Parietal Occipital Temporal A montagem do EEG é a combinação de determinado número de combinações de pares de eletrodos, que deve obedecer a um padrão lógico, simples e de fácil interpretação [Montenegro et al. 2001]. Para uma boa interpretação dos atributos oriundos do EEG, a montagem é essencial [Rappelsbeger 1989]. As principais técnicas de montagem são: Referencial: onde o sinal de cada eletrodo é comparado com um valor de referência, porém ainda não existe valor ideal de referência. Normalmente utiliza-se algum eletrodo da faixa central, ou eletrodos auriculares. Outra referência muito utilizada é a média dos potenciais de todos os eletrodos [Montenegro et al. 2001, Rappelsbeger 1989]; Bipolar: que registra a diferença de potencial entre dois eletrodos diferentes. Uma alternativa para se obter uma montagem bipolar com um sinal já gravado é a subtração de dois sinais para eliminar a referência [Montenegro et al. 2001, Rappelsbeger 1989]. Uma importante característica é a possibilidade de gerar uma montagem a partir da outra, já que o sinal captado pelo EEG corresponde à diferença de potencial elétrico (ddp) entre dois eletrodos [Montenegro et al. 2001]. A subtração de dois vetores ddp em uma montagem referencial oferece como resultante um vetor com montagem bipolar. Normalmente são encontrados quatro ritmos durante um EEG [Montenegro et al. 2001]: Alfa, Beta, Teta e Delta (Figura ). O ritmo Alfa possui frequência entre 8 e 13Hz, com ondas sinuosas que podem ser mais agudas na juventude e de baixa amplitude na terceira idade. O ritmo Beta possui 1 Fonte: adaptado de [Sanei e Chambers 2007]

30 5.2. Diagnóstico de Alzheimer 23 frequência acima dos 13Hz, com rápidas variações em curtos intervalos de tempos. O ritmo Teta possui frequência de 4 a 7Hz, com ondas lentas e difusas. Finalmente, o ritmo Delta possui frequência abaixo de 4Hz, sendo normalmente arciforme. Figura 5.2: Os quatro tipos de onda mais comumente encontrados em um EEG 5.2 Diagnóstico de Alzheimer A DA é uma doença neurodegenerativa que, apesar de ser diagnosticada em pessoas de qualquer idade, afeta principalmente os idosos. Nessas pessoas o diagnóstico inicial é bastante difícil, pois os sintomas da doença são muitas vezes confundidos com consequências do avanço da idade, e incluem casos de falha de memória, confusão mental, dificuldade de locomoção, problemas de insônia e lentidão do raciocínio. Com o avanço da doença, o paciente passa a ter dificuldades para viver independentemente e os sintomas são agravados, podendo até causar a morte do paciente [Lent 2005]. Apesar de descrita pela primeira vez em 1906, até hoje não existem métodos de diagnóstico definitivo da DA em vida. O único método para estabelecer este diagnóstico é através de uma análise histológica do cérebro, em que se observa uma degeneração específica no tecido cerebral e outras alterações estruturais [Terry 1994], o que comumente é realizado pós-mortem. Na Figura é mostrado um modelo comparando a degeneração causada em um estado avançado de DA com um córtex saudável. De acordo com [IBGE 1994] a quantidade de pessoas afetadas pela DA tem aumentado e corresponde a cerca de 50% em algumas regiões [Herrera, Caramelli e Nitrini 1998, Bachman et al. 1993]. A probabilidade de desenvolvimento da doença aumenta em função da idade. Segundo [Herbert, Scherr e Beckett 1995], a DA é mais prevalente em pessoas com idade entre 65 e 85 anos, e 14 vezes mais incidente em pessoas com 85 anos, quando comparada à incidência em pessoas com 65 anos. De uma maneira geral, existem duas formas de manifestação da DA. Em cerca de 90% dos casos, a doença afeta pessoas que se encaixam em algum dos fatores de risco: idade avançada, trauma crânioencefálio, baixa escolaridade, sexo feminino ou histórico de Síndrome de Down na família. Nos 10% de casos restantes ela ocorre devido a mutações hereditárias [Jelic 1996, Anghinah 2003]. A ferramenta mais indicada para o diagnóstico da DA é a eletroencefalografia [Claus et al. 1996, Crevel, Gool e Walstra 1999], porém novas ferramentas vêm sendo buscadas. De acordo com a Socie- 2 Fonte:

31 5.3. Considerações Finais 24 Figura 5.3: Modelo de degeneração do córtex no estágio avançado da DA, comparado com um córtex saudável dade Brasileira de Neurofisiologia Clínica (SBNC), o EEG é tido como um exame de alta importância no auxílio ao diagnóstico de demências e encefalopatias [Luccas et al. 1996]. Vários estudos atuais [Darvishi e Al-Ani 2007,Yazdani et al. 2007,Arasu e Palanisamy 2007,Carvalho et al. 2008] têm utilizado modelos de RNFs como ferramenta para automatizar a análise dos sinais produzidos por EEG e classificá-los. Nesses estudos foi constatado que as RNFs podem extrair informações úteis sobre as iterações entre as características dos sinais de entrada e suas relações com as classes de saída. Desta maneira, podemos entender melhor quais características são mais relevantes no diagnóstico da DA. 5.3 Considerações Finais Neste capítulo foi apresentada uma importante ferramenta para o diagnóstico de doenças cognitivas, o EEG. Apresentou-se também a forma mais comum de demência, a DA, que atinge grande parte da população idosa. A análise dos sinais de EEG dos pacientes é usualmente empregada no diagnóstico da DA. Nos últimos anos, vêm sendo reportadas diversas iniciativas para a automatização dessas análises, provendo ao profissional da medicina ferramentas de suporte ao diagnóstico. Neste projeto é estudado como modelos neuro-fuzzy, que possuem alto poder de representação aliado à característica de interpretabilidade, podem ser empregados na análise de sinais de EEG para o diagnóstico de DA. O projeto descrito é conjunto a trabalhos prévios e em execução da orientadora do projeto, relacionado ao uso de técnicas de AM na análise de sinais de EEG para diagnóstico de doenças cognitivas [Trambaiolli et al. 2009, Trambaiolli et al. 2010]. Foi identificado no decorrer desses estudos a necessidade do uso de modelos interpretáveis, tais como as RNFs, para prover ao profissional da medicina uma compreensão dos mecanismos empregados pela técnica no diagnóstico realizado, assim como para promover um melhor entendimento dos padrões extraídos dos sinais.

32 C A P Í T U L O 6 EXPERIMENTOS Este capítulo objetiva apresentar os experimentos realizados neste trabalho envolvendo o uso de RNFs no diagnóstico de DA. Inicialmente, empregou-se um conjunto de dados em que foram extraídos como atributos dos sinais de EEG valores de coerência. Em seguida, foram considerados também valores de pico de espectro dos sinais. Realizou-se ainda alguns estudos comparativos para analisar a eficácia preditivas das RNFs comparando-as com algumas outras técnicas de Aprendizado de Máquina (AM) [Mitchell 1997], incluindo outros domínios além do EEG. Na Seção 6.1 o conjunto de dados de EEG empregado nos experimentos de diagnóstico de DA é detalhado, em que apresenta-se os dados utilizados, os pré-processamentos realizados, quais atributos são considerados dos sinais e algumas características dos dados. Na Seção 6.2 são apresentadas brevemente as técnicas de AM cujos resultados são comparados aos da RNF. Na Seção 6.3 são apresentadas as ferramentas computacionais utilizadas na realização dos experimentos. Na Seção 6.4 é descrita a metodologia empregada na realização dos experimentos de diagnóstico da DA e os resultados obtidos são apresentados. Na Seção 6.5 são descritos outros experimentos comparativos que foram realizados, a fim de avaliar o desempenho das RNFs. Finalmente, na Seção 6.6 são apresentadas as considerações finais do capítulo. 6.1 Conjunto de Dados Nesta seção são apresentados os conjuntos de dados de EEG utilizado nos experimentos realizados visando o auxílio no diagnóstico da DA. Na Seção são apresentadas informações sobre os dados colhidos de indivíduos com e sem a DA. Na Seção os pré-processamentos utilizados nos dados são descritos, enquanto que na Seção os atributos extraídos dos sinais são apresentados. Parte dessas etapas foram realizadas pelo discente Lucas R. Trambaiolli em seu trabalho de Iniciação Científica, parcialmente descrito em [Trambaiolli et al. 2009, Trambaiolli et al. 2010]. Finalmente, a Seção descreve algumas etapas de redução de dimensionalidade que foram necessárias durante a execução dos experimentos Dados de EEG O conjunto de dados empregado neste trabalho foi fornecido pelo Prof. Dr. Renato Anghinah, neurologista do Hospital das Clínicas da Universidade de São Paulo, e consiste do EEG de indivíduos com DA e sem a doença (controle). Dois grupos de indivíduos voluntários foram selecionados: o primeiro é composto por 18 indivíduos sem a DA, e o segundo é composto por 24 indivíduos com 25

33 6.1. Conjunto de Dados 26 diagnóstico de DA provável. O diagnóstico de DA foi realizado segundo os critérios do NINCDS- ADRDA [McKhann et al. 1984], classificados como sendo de intensidades leve a moderada, conforme os critérios do DSM-III R [Spitzer e Williams 1990]. Os indivíduos não apresentavam antecedentes de diabetes mellitus, nefropatias, tireoideopatias, alcoolismo, hepatopatias, doenças pulmonares, nem carência de vitamina B12, para evitar a ocorrência de outras causas diagnósticas para o déficit cognitivo. Os registros de EEG foram obtidos com um equipamento da marca EMSA, de 32 canais, conversor A/D de 12 bits e taxa de amostragem de 200Hz. A colocação dos eletrodos de escalpo (Fp1, Fp2, Fz, F3, F4, F7, F8, C3, C4, Pz, P3, P4, T5, T6, O1 e O2) obedeceu ao sistema internacional 10-20, com a referência bi-auricular unida (eletrodos A1 e A2), conforme preconizados pela Sociedade Brasileira de Neurofisiologia Clínica e pela American EEG Society. Durante o exame, os registros foram obtidos com os indivíduos em vigília e repouso, com os olhos fechados. Para composição dos conjuntos de dados, foram selecionadas 40 épocas (trechos do mesmo intervalo de tempo para todos os canais) com 8 segundos de cada exame com o auxílio de um especialista, para eliminação de ruídos e artefatos (todo potencial elétrico proveniente de outra fonte que não o cérebro [Sanei e Chambers 2007]). Esses dados foram então pré-processados matematicamente para fornecer os devidos atributos de entrada às técnicas de AM Pré-Processamento Os sinais de EEG digitalizados contendo as épocas foram submetidos a um filtro digital passa baixas com frequência de corte em 50Hz. O filtro utilizado foi do tipo IIR elíptico com um zero na frequência de 60Hz, eliminando assim completamente a interferência da rede elétrica. A análise de frequência foi realizada com um algoritmo da transformada rápida de Fourier de 512 pontos, utilizando-se janela Hamming com duração de 2,5s e incrementos de 0,25s entre janelas sucessivas. As bandas de frequência foram divididas nas sub-bandas δ1 (0,1-2,0Hz), δ2 (2,5-4,0Hz), θ1 (4,5-6,0Hz), θ2 (6,5-7,5Hz), α1 (8,0-10,0Hz), α2 (10,5-12,0Hz), β1 (12,5-15,0Hz), β2 (15,5-21,0Hz) e β3 (> 21Hz) [Anghinah 2003]. A partir dessa divisão de bandas, foram obtidos matematicamente os atributos representando os sinais de EEG considerados Atributos Os atributos representam características predominantes relacionadas a algum evento de um trecho específico de sinal, que podem então ser utilizados como entrada para uma técnica de AM, como uma RNF. Os atributos utilizados neste trabalho são a coerência e o pico de espectro. A coerência é uma variável que reflete as conexões funcionais entre as áreas corticais dos eletrodos estudados. Inúmeros estudos já comprovaram a eficácia da coerência na diferenciação da DA, apresentando reduções das bandas alfa e beta em pares de eletrodos próximos e distantes [Besthorn et al. 1994, Dunkin et al. 1994, Leuchter et al. 1987, Locatelli et al. 1998, Sloan et al. 1994]. Já o pico de espectro busca a frequência onde a magnitude do espectro de tempo curto - obtido por meio de uma transformada - do sinal de EEG alcança seu valor máximo. Já fora provado anteriormente que picos menores que 8,0Hz poderiam ser considerados patológicos [Arenas, Brenner e Reynolds 1986] e que picos maiores que 10,0Hz poderiam ser considerados normais [Anghinah 2003]. A faixa entre 8,0 e 10,0Hz corresponde a pacientes de ambos diagnósticos Coerências A seguir são apresentadas as combinações de eletrodos utilizadas no cálculo da coerência, que foram determinadas a partir de trabalhos correlatos e podem ser visualizadas na Figura 6.1, cedida por Lucas R. Trambaiolli. Para cada combinação são mostrados os eletrodos envolvidos no cálculo, no formato <Eletrodo 1>-<Eletrodo 2>. As combinações de coerência resultaram em um total de 704 atributos numéricos.

34 6.1. Conjunto de Dados 27 Figura 6.1: Mapas de montagem das coerências, onde as linhas contínuas correspondem às coerências, e as linhas tracejadas às subtrações de sinais para cálculo da referência. Da esquerda para direita, de cima para baixo: Locatelli anteriores intra-hemisféricas, Locatelli posteriores intra-hemisféricas, Locatelli equidistantes intra-hemisféricas, Stevens intra-hemisféricas, Leuchter intra-hemisféricas, Trambaiolli inter-hemisféricas, Anghinah inter-hemisféricas e Pogarell intra-hemisféricas [cedido por Lucas R. Trambaiolli] Locatelli anteriores intra-hemisféricas (Fp1-F7, Fp2-F8, Fp1-F3, Fp2-F4, Fp1-C3, Fp2-C4, F7- C3, F8-C4, F3-C3 e F4-C4) [Locatelli et al. 1998]; Locatelli posteriores intra-hemisféricas (O1-P3, O2-P4, O1-T5, O2-T6, O1-C3, O2-C4, P3-C3, P4-C4, T5-C3 e T6-C4) [Locatelli et al. 1998]; Locatelli equidistantes intra-hemisféricas (O1-Fp1, O2-Fp2, O1-F7, O2-F8, O1-F3, O2-F4, P3- Fp1, P4-Fp2, P3-F7, P4-F8, P3-F3, P4-F4, T5-Fp1, T6-Fp2, T5-F7, T6-F8, T5-F3 e T6-F4) [Locatelli et al. 1998]; Stevens intra-hemisféricas (F7-T3, T3-T5, Fz-Cz, Cz-Pz, F8-T4, T4-T6) [Stevens et al. 2001]; Leuchter intra-hemisféricas (P3.O1-F3.C3, P3.O1-Fp1.F3, P3.O1-Fp1.T1, P4.O2-Fp2.F4, P4.O2- Fp2.T2, P4.O2-F4.C4, Fp1.F3-C3.P3, Fp1.F3-T5.O1, Fp2.F4-C4.P4, Fp2.F4-F6.O2, P3.O1-P3.C3,

35 6.1. Conjunto de Dados 28 P3.O1-T3.T5, P4.O2-P4.C4, P4.O2-P4.C4, P4.O2-T4.T6, Fp1.F3-F3.C3, Fp1.F3-Fp1.F7, Fp2.F4- F4.C4, Fp2.F4-Fp2.F8) [Leuchter et al. 1992]; Trambaiolli inter-hemisféricas (T3.C3-T4.C4, C3.P3-C4.P4, T5.P3-T6.P4, T3.T5-T4.T6, P3.O1- P4.02, T5.O1-T6.02) [Trambaiolli et al. 2009]; Anghinah inter-hemisféricas (Fp1-Fp2, F7-F8, F3-F4, C3-C4, P3-P4, T5-T6 e O1-O2) [Anghinah 2003]; Pogarell intra-hemisféricas (F3.C3-F4.C4, F7.T5-F8.T6, C3.O1-C4.O2) [Pogarell et al. 2005]; Picos de Espectro Devido ao fato da coerência ser uma medida comparativa entre dois sinais e o pico de espectro ser uma medida de sinal único, não é possível utilizar as mesmas combinações para seu cálculo. A seguir são apresentadas as montagens utilizadas para o cálculo do pico de espectro. Com excessão da montagem Picos Bipolares Homólogos, que pode ser encontrada em [Trambaiolli et al. 2010], todas são montagens clássicas da literatura encontradas em [Montenegro et al. 2001]. Para cada combinação são mostrados os eletrodos envolvidos no cálculo do sinal, no formato <Eletrodo 1>-<Eletrodo 2>. A Figura 6.2 ilustra essas combinações. As combinações de pico de espectro geraram 619 atributos de valores entre -1 e 1. Figura 6.2: Mapas de montagem dos picos de espectros. Da esquerda para direita, de cima para baixo: Picos com Referência Biauricular, Picos Bipolares Longitudinal, Picos Bipolares Transversa, Picos Bipolares Homólogos e Picos com Referência Cz [cedido por Lucas R. Trambaiolli]

36 6.1. Conjunto de Dados 29 Picos com Referência Biauricular: Fp1-A1, Fp2-A2, F7-A1, F8-A2, F3-A1, F4-A2, C3-A1, C4-A2, T3-A1, T4-A2, P3-A1, P4-A2, T5-A1, T6-A2, O1-A1, O2-A2; Picos Bipolares Longitudinal: Fp1-F3, F3-C3, C3-P3, P3-O1, O1-T5, T5-T3, T3-F7, F7-Fp1, Fp2- F4, F4-C4, C4-P4, P4-O2, O2-T6, T6-T4, T4-F9, F8-Fp2; Picos Bipolares Transversa: Fp1-Fp2, F7-F3, F3-Fz, Fz-F4, F4-F8, A1-T3, T3-C3, C3-Cz, Cz-C4, C4-T4, T4-A2, T5-P3, P3-Pz, Pz-P4, P4-T6, O1-O2; Picos Bipolares Homólogos: F7-F8, F3-F4, T3-T4, C3-C4, P3-P4, T5-T6; Picos com referência Cz: Fp1-Cz,Fp2-Cz, F3-Cz, F4 -Cz, F7-Cz, F8-Cz, T3-Cz, T4-Cz, C3-Cz, C4-Cz, T5-Cz, T6-Cz, P3-Cz, P4-Cz, O1-Cz, O2-Cz Seleção de Atributos Verificou-se durante alguns experimentos que as RNFs possuem uma limitação computacional quanto ao número atributos de entrada empregados, o que está relacionado diretamente ao número de de regras fuzzy geradas. No modelo utilizado, as regras fuzzy são calculadas automaticamente através de um algoritmo de agrupamento e o número de regras geradas está diretamente ligado com a complexidade dos dados. Foi então necessário realizar uma redução dimensional nos dados a fim de que um menor número de regras fuzzy conseguissem descrever os dados. Para tal, empregou-se abordagens de seleção de atributods distintas nos experimentos envolvendo os atributos coerência e pico de espectro. A Seleção de Atributos é um tema de pesquisa das áreas de reconhecimento de padrões, AM e Mineração de Dados [Liu e Motoda 1998], cuja aplicação a um conjunto de dados visa obter um subconjunto com menor número de atributos, por meio da identificação e remoção de atributos considerados pouco importantes para a discriminação dos padrões presentes nos dados. Optou-se pela aplicação de técnicas de seleção de atributos na obtenção de uma redução dimensional por estas permitirem que os atributos em seu formato original sejam preservados, favorecendo uma interpretação dos resultados da seleção e da posterior classificação dos dados. Ténicas alternativas de redução dimensional, como a PCA (Principal Component Analysis), realizam transformações nos valores dos atributos. Nos experimentos realizados com utilização do atributo coerência, o conjunto de dados foi dividido em 42 sub-conjuntos de treinamento e teste, sendo que em cada um destes sub-conjuntos o conjunto de teste era composto pelos dados de um único paciente e o conjunto de treinamento pelos dados dos outros 41 pacientes. Para cada um dos sub-conjuntos foi empregado o algoritmo CBF (do inglês, Consistency-Based Filter) [Liu e Setiono 1996], selecionando os atributos apresentados no Apêndice A. Portanto, neste caso são selecionados atributos potencialmente diferentes para cada partição dos dados. Essas seleções foram realizadas pelo discente Lucas R. Trambaiolli em seu trabalho de Iniciação Científica. Para os experimentos envolvendo o pico de espectro optou-se por utilizar uma abordagem diferente, selecionando os atributos para o conjunto de dados inteiro, antes de particioná-los. Neste caso, utilizou-se o algoritmo InfoGainAttributeEval com o método de busca Ranker da ferramenta Weka (Seção 6.3.2) na seleção. Este algoritmo avalia os atributos medindo seu ganho de informação com respeito à classe, enquanto que o método de busca ordena os atributos a partir da avaliação individual de cada um [Witten e Frank 2005]. Optou-se por utilizar os 20 melhores atributos de acordo com o algoritmo Ranker, enquanto que os outros foram descartados. Esses atributos são apresentados na Tabela 6.1. As características dos conjuntos de dados de EEG empregados são resumidas na Tabela 6.2. Temse nesta tabela os números de exemplos nos conjuntos de dados, o número total de atributos extraídos em cada caso, o número de atributos após a seleção de atributos e o acerto majoritário (acerto obtido quando se faz predições apenas na classe majoritária, que no caso desses dados é a classe

37 6.2. Outras Técnicas de AM 30 Tabela 6.1: Atributos Selecionados para o Pico de Espectro Pico com Referência Cz P3-Cz a2 Pico com Referência Cz P4-Cz a2 Pico Bipolar Longitudinal C4-P4 a2 Pico com Referência Cz T5-CZ a2 Pico Bipolar Longitudinal P4-O2 a2 Pico com Referência Cz T6-Cz a2 Pico Bipolar Longitudinal F4-C4 a2 Pico Bipolar Longitudinal C3-P3 a2 Pico Bipolar Longitudinal T5-O1 a2 Pico Bipolar Transversa C4-T4 a2 Pico Bipolar Homólogo P3-P4 a2 Pico com Referência Cz O2-CZ a2 Pico Bipolar Homólogo T5-T6 a2 Pico com Referência Biauricular T5 a2 Pico Bipolar Longitudinal T4-T6 a2 Pico Bipolar Transversa PZ-P4 a2 Pico com Referência Cz O1-CZ a2 Pico Bipolar Transversa P3-PZ a2 Pico Bipolar Transversa P4-T6 a2 Pico com Referência Biauricular T6 a2 DA). No caso dos dados de coerência, devido ao procedimento de seleção empregado, é apresentado o número médio (e o desvio-padrão) do número de atributos selecionados para cada paciente. Tabela 6.2: Conjuntos de Dados de EEG Utilizados Conjunto de Dados # Exemplos # Atributos # Atributos Acerto Majoritário épocas / pacientes Total Selecionados Coerências 1680 / ±2 57.1% Picos de espectro 1680 / % 6.2 Outras Técnicas de AM Além da RNF ANFIS, já descrita nesta monografia, outras duas técnicas de AM foram utilizadas nos experimentos: Máquinas de Vetores de Suporte (Support Vector Machines - SVMs), devido aos bons resultados obtidos por [Trambaiolli et al. 2010], e Árvores de Decisão (ADs), por ser outra técnica simbólica bastante difundida. As SVMs são baseadas em conceitos da Teoria de Aprendizado Estatístico [Cristianini e Shawe- Taylor 2000]. Dado um conjunto de dados T composto por n pares (x i, y i ), em que x i R m e y i { 1,+1}, as SVMs buscam por um hiperplano w ψ(x) + b = 0 capaz de separar os dados em T com erro mínimo enquanto maximiza a margem de separação entre as classes (Figura 6.3). Nesta equação, ψ representa uma função que mapeia os dados em T para um espaço de maior dimensão, tal que as classes possam ser separadas linearmente. No treinamento e predições com SVM, a função de mapeamento aparece como um produto escalar na forma ψ(x i ) ψ(x j ), que pode ser facilmente computado por funções Kernel, geralmente mais simples que a função de mapeamento. As SVMs apresentam boa capacidade de generalização em diversos domínios. Além disso, SVMs também são conhecidas por sua robustez a dados de grandes dimensões. Suas maiores deficiências estão relacionadas à dificuldade de interpretação do modelo gerado. A AD é uma estrutura de fluxo semelhante a uma árvore, composta de nós e ramificações [Quinlan 1986]. Cada nó interno representa um atributo associado a um teste relevante para a classificação, enquanto que os nós folhas representam rótulos ou distribuições de classes. Os ramos da árvore representam o resultado do teste aplicado no nó anterior. A classificação de um exemplo se dá aplicando os testes de cada nó da árvore a partir da raíz até que se alcance um nó folha. As ADs também podem ser representadas através de regras de decisão, em que testes do tipo se-então são aplicados em cada nó, sendo portanto modelos simbólicos. Na Figura 6.4 é apresentado um exemplo de árvore de decisão, juntamente com as regras extraídas da árvore.

38 6.3. Ferramentas Computacionais 31 Figura 6.3: Exemplo de fronteira de decisão em SVM Figura 6.4: Exemplo árvore de decisão e suas regras Uma das vantagens das ADs está na compreensibilidade das regras de classificações geradas. No entanto, as ADs são frequentemente pouco robustas a conjuntos de dados com muitos atributos. 6.3 Ferramentas Computacionais Nesta seção são apresentadas as ferramentas computacionais utilizadas para a realização dos experimentos Fuzzy Logic Toolbox (Matlab) Fuzzy Logic Toolbox é uma coleção de funções implementadas na plataforma MATLAB que provê ferramentas para a criação e edição de sistemas de inferência fuzzy. Além disso, ela proporciona suporte para integração de sistemas fuzzy a simulações com a ferramenta Simulink ou programas independentes criados na linguagem C.

39 6.3. Ferramentas Computacionais 32 Esta toolbox é altamente baseada em interfaces gráficas que auxiliam o trabalho de criação e edição dos sistemas fuzzy, mas também pode ser utilizada através de linhas de comando. A principal função desta toolbox utilizada é a anfisedit (Figura 6.5), um editor gráfico para criação, treinamento e teste de sistemas fuzzy do tipo TSK. Entretanto, esta função originalmente trabalha com saídas contínuas. Assim, a função foi adaptada para trabalhar com saídas discretizadas conforme mostrado na Equação 6.1, que equivale ao uso de uma função sinal na saída da RNF, em que -1 designa pacientes do grupo de controle e +1 representa pacientes com DA. se Φ < 0 então y = 1 senão y = +1 (6.1) Figura 6.5: Interface Gráfica da Função ANFISEDIT no Matlab Weka Weka é uma coleção de implementações de algoritmos de AM para tarefas de Mineração de Dados (MD) que podem facilmente ser aplicados a diferentes conjuntos de dados [Witten e Frank 2005]. Uma de suas principais vantagens é seu desenvolvimento Open Source (de código livre). Desta forma, qualquer pessoa tem acesso não apenas à ferramenta, mas também ao seu código, podendo adaptar os algoritmos às suas necessidades. Outro ponto positivo do Weka está relacionado a sua versatilidade. A ferramenta pode ser utilizada através de sua interface gráfica (Figura 6.6), por linha de comando ou ainda, por ser desenvolvida em Java, pode ser utilizada como biblioteca em códigos Java. Neste trabalho, a ferramenta Weka foi utilizada no suporte à realização de experimentos comparativos envolvendo as técnicas de AM descritas na Seção 6.2, bem como nas atividades de seleção de atributos para redução de dimensionalidade (Seção 6.1.4) realizadas.

40 6.4. Metodologia e Resultados 33 Figura 6.6: Interface Gráfica da Ferramenta Weka 6.4 Metodologia e Resultados Inicialmente são apresentados os experimentos envolvendo os atributos de coerência, seguidos dos experimentos com dados de pico de espectro. Em ambos os casos, os conjuntos de dados foram divididos 42 vezes, de forma que as épocas de um paciente fossem preservadas para teste, enquanto as demais eram reunidas em um conjunto para o treinamento das técnicas de AM. Assim, foram realizados sempre 42 testes, sendo que em cada um deles um classificador foi treinado com 41 pacientes e o teste foi realizado sobre o paciente que ficou de fora Coerências No caso das coerências, os estudos comparativos em relação à RNF ANFIS incluíram as redes neurais do tipo MLP, além da SVM e AD. Para a RNF foi utilizada a adaptação implementada no Fuzzy Logic Toolbox do Matlab, enquanto que para os outros três classificadores foi utilizada a ferramenta Weka. Para todos os classificadores foram mantidos os parâmetros padrões da ferramenta e do algoritmo. O conjunto de dados utilizado em todos os experimentos foi o conjunto descrito na Seção 6.1. Para medir a eficiência preditiva dos classificadores foram utilizadas algumas estatísticas como a Taxa de Acerto, Sensibilidade e Especificidade. A Taxa de Acerto representa a porcentagem de classificações corretas realizadas pelo classificador. A Sensibilidade e a Especificidade são medidas capazes de indicar o desempenho por classe. A Sensibilidade mede a capacidade do classificador em identificar corretamente a doença entre aqueles que a possuem. A Especificidade mede a capacidade do classificador em excluir corretamente aqueles que não possuem a doença Resultados Na Tabela 6.3 são apresentados os resultados gerais obtidos para cada um dos classificadores na classificação das épocas contidas nos subconjuntos de teste formados. Tem-se ilustradas as médias de

41 6.4. Metodologia e Resultados 34 Tabela 6.3: Resultados Obtidos por Época para as Coerências ANFIS SVM Taxa de Acerto 60.6% (36.0) Taxa de Acerto 62.3% (38.0) Sensibilidade 70.2% (30.3) Sensibilidade 70.7% (34.4) Especificidade 47.8% (39.7) Especificidade 51.1% (40.5) MLP AD Taxa de Acerto 58.4% (31.7) Taxa de Acerto 58.6% (29.1) Sensibilidade 62.4% (29.2) Sensibilidade 67.7% (23.4) Especificidade 52.9% (34.9) Especificidade 46.5% (32.2) Tabela 6.4: Resultados Obtidos por Paciente para as Coerências ANFIS SVM Taxa de Acerto 61.9% (49.2) Taxa de Acerto 59.5% (49.7) Sensibilidade 75.0% (44.2) Sensibilidade 70.8% (46.4) Especificidade 44.4% (51.1) Especificidade 44.4% (51.1) MLP AD Taxa de Acerto 59.5% (49.7) Taxa de Acerto 61.9% (49.2) Sensibilidade 66.7% (48.2) Sensibilidade 79.2% (41.5) Especificidade 50.0% (51.4) Especificidade 38.9% (50.2) taxa de acerto, sensibilidade e especificidade. Os valores de desvio-padrão são indicados em parênteses. Os melhores resultados obtidos estão destacados em negrito, enquanto os piores resultados estão destacados em itálico. Os valores de sensibilidade e especificidade foram obtidos a partir das matrizes de confusão obtidas para os quatro classificadores, somando-se as predições obtidas para todas as 40 épocas. Essa matriz permite visualizar as confusões cometidas pelo classificador. Em um segundo tipo de análise, foi considerado o diagnóstico por paciente, obtido por meio do resultado majoritário das classificações realizadas para as 40 épocas de exame de cada um deles. Assim, foi definida a confiança de uma classificação como a taxa majoritária de escolhas (certas ou erradas). Na Tabela B.1 do Apêndice B são mostrados os resultados de cada classificador detalhandose o resultado para cada paciente, com a confiança de diagnóstico obtida entre parênteses. A partir dessa tabela foi construída a Tabela 6.4, contendo os resultados gerais por paciente. Os melhores resultados estão destacados em negrito, enquanto que os piores resultados estão em itálico Discussão dos Resultados Conforme observado nos resultados apresentados, as taxas de acerto para todos os classificadores são muito próximas. Utilizando como medida os desvios-padrão apresentados, os quais se mostram elevados, é possível afirmar que há uma grande variabilidade nos resultados, tornando impossível concluir qual a melhor técnica. Além disso, houve tantos casos de falsos positivos como falsos negativos, embora predominem os falsos positivos, o que afetou a espeficidade. Analisando os resultados por época, SVM apresentou um melhor desempenho, seguida por AN- FIS, AD e MLP. Já nos resultados por paciente, as técnicas simbólicas apresentaram uma pequena vantagem. No entanto, a diferença nos resultados não é suficiente para afirmar que uma técnica se sobreponha às outras. De uma maneira geral, os desempenhos foram baixos e muitos próximos à taxa de acerto majoritária (57.1%). Apesar disso, eles evidenciam que a RNF foi capaz de obter taxas de classificação próximas às de outras técnicas de AM mais comumente empregadas, viabilizando o seu uso no problema considerado.

42 6.4. Metodologia e Resultados 35 Analisando os dados apresentados na Tabela B.1 do Apêndice B é possível verificar casos de pacientes para os quais todas as técnicas empregadas apresentaram pouca confiança na predição (como o Paciente 2, por exemplo), enquanto para outros todas as técnicas apresentaram alta confiança (como os Pacientes 9, 13 e 16). Existem ainda casos em que todos os classificadores erram com grande margem de confiança. Exemplos deste último caso são os Pacientes 19, 29 e 34, que estão diagnosticados como Controle e foram classificados como DA; o que pode representar que esses pacientes podem estar em um estado de comprometimento cognitivo leve, ou seja, ainda não apresentam a DA, mas podem estar evoluindo para esse quadro. De fato, os maiores erros observados nas matrizes de confusão por época e por pacientes estão relacionados a estes casos. Fatos como estes evidenciam como o conjunto de dados em questão é difícil de ser trabalhado. Entretanto, de certa forma, pode-se considerar isso esperado, pois o diagnóstico de DA é uma tarefa complexa, dado o diagnóstico definitivo ser pós-mortem apenas, e a existência de comprometimentos cognitivos intermediários Picos de Espectro Neste caso realizou-se experimentos utilizando o conjunto de dados com os atributos de pico de espectro selecionados, conforme apresentado na Seção Nos experimentos com este conjunto foram utilizados as técnicas RNF, AD (outra técnica simbólica) e SVM (que possui robustez a dados numéricos de grandes dimensões) para estudos comparativos. Nos experimentos com a RNF, cada um dos 42 conjuntos de treinamento foi subdividido em: uma parte para treinamento, contendo 30 pacientes; e uma parte para validação, contendo 11 pacientes. O conjunto de validação foi utilizado nesses experimentos com RNFs em uma estratégia de earlystop, com o objetivo de evitar eventuais super-ajustes da rede aos dados. Além disso, essa estratégia permite que o treinamento das RNFs, que apresentou um custo computacional maior que os das outras técnicas nos experimentos anteriormente realizados, seja acelerado Resultados Os resultados destes experimentos estão dispostos na Tabela 6.5. Tabela 6.5: Resultados Obtidos para o Pico de Espectro Técnica Taxa de Acerto Sensibilidade Especificidade ANFIS 53.6% (21.7) 55.3% (23.7) 51.4% (19.1) AD 61.1% (25.9) 65.3% (26.8) 55.6% (24.4) SVM 66.3% (31.6) 70.1% (31.2) 61.3% (32.4) Conforme observado na Tabela 6.5, o desempenho preditivo da RNF se mostrou bastante degradado em relação às outras técnicas, embora para nenhuma delas os resultados preditivos foram altos. Por esse motivo, a análise por paciente é suprimida nesta seção. Realizou-se aqui um experimento para avaliar se o sub-conjunto de atributos selecionados apresentava problemas. Para isso, comparou-se os resultados obtidos com o algoritmo AD e SVM quando empregados o conjunto de dados de pico de espectro com e sem seleção de atributos. Os resultados obtidos deste experimento estão dispostos na Tabela 6.6. Na tabela, os melhores desempenho estão destacados em negrito, enquanto que os piores são destacados em itálico Discussão Embora os resultados nas predições envolvendo os atributos de pico de espectro tenham sido melhores que os de coerência para as técnicas SVM e AD, os desempenhos preditivos ainda podem ser considerados baixos, dado que a média de acerto do diagnóstico por especialistas é de 85 a 93% em hospitais universitários [Trambaiolli et al. 2010].

43 6.4. Metodologia e Resultados 36 Tabela 6.6: Resultados Obtidos para o Pico de Espectro Com e Sem Seleção de Atributos Árvores de Decisão Com Seleção Sem Seleção Taxa de Acerto 61.1% (25.9) 54.8% (22.6) Sensibilidade 65.3% (26.8) 60.2% (21.8) Especificidade 55.6% (24.4) 47.6% (22.3) Support Vector Machines Com Seleção Sem Seleção Taxa de Acerto 66.3% (31.6) 61.8% (31.0) Sensibilidade 70.1% (31.2) 67.0% (31.4) Especificidade 61.3% (32.4) 54.9% (29.9) Conforme observado na Tabela 6.6, a seleção de atributos não influenciou no mal desempenho dos classificadores e, no caso das ADs e SVMs, até mesmo melhorou os resultados. No entanto, a taxa de acerto em geral continua muito próxima à taxa de acerto majoritária (57.1%) e, no caso da RNF, o desempenho mostrou-se aquém disso. Um dos fatores que pode contribuir para a baixa eficácia preditiva é a grande complexidade dos dados. Foram realizados alguns procedimentos simplificados para verificar a regularidade e redundância nos dados de picos de espectro. Este é um passo importante pois, conforme visto na Seção 2.2, estes fatores são fundamentais para o bom funcionamento dos algoritmos não-supervisionados como o Subctrative Clustering, utilizado na determinação do número de regras fuzzy, e o LMS, utilizado em parte do treinamento da RNF ANFIS (Seção 4.2.1). A Figura 6.7 apresenta um histograma dos valores dos atributos selecionados. As barras em vermelho representam as frequências de valores para pacientes com DA, enquanto aquelas em azul correspondem aos pacientes saudáveis. Figura 6.7: Histograma dos Atributos de Pico de Espectro

Exibir mais