Mineração de dados utilizando sistemas adaptativos de inferência neuro-fuzzy

Mineração de dados utilizando sistemas adaptativos de inferência neuro-fuzzy Thiago C. M. Nunes 1 Patricia B. Ribeiro 2 1 Departamento de Banco de dados (Fatec Bauru) Rua Manoel Bento Cruz, 3-30, Centro Bauru SP Brasil 2 Escola de Engenharia de São Carlos Universidade de São Paulo (USP São Carlos) Av. Trabalhador São-carlense, 400, Pq. Arnold Schimidt São Carlos SP Brasil k1mbl3@gmail.com¹, patriciabellin@yahoo.com.br² Abstract. The Adaptative Neuro-Fuzzy systems (ANFIS) are Takagi-Sugeno type fuzzy inference systems. The main purpose of the present paper was to test the reliability of the ANFIS in the binary classification of network attacks, growing problem nowadays. Three ANFIS models based on membership functions were tested in MATLAB against a public database. The results, calculated through the root-mean-square deviation, have shown the following checking error: 0.12148 for trapezoidal, 0.42045 for gaussian and 0.14143 for sigmoid product, acceptable values regarding anomaly detection. Resumo. Os sistemas adaptativos neuro-fuzzy (ANFIS) são sistemas de inferência fuzzy do tipo Takagi-Sugeno. O presente artigo teve como objetivo principal testar a confiabilidade dos ANFIS na classificação binária de ataques a redes de computadores, problema crescente em nosso tempo. Foram testados três modelos ANFIS baseados em funções de pertinência no MATLAB contra uma base de dados pública. Os resultados, calculados a partir da raiz do desvio quadrático médio, apresentaram as seguintes taxas de erro de checagem: 0.12148 para trapezoidal, 0.42045 para gaussiana e 0.14143 para produto sigmóidal. Valores considerados aceitáveis, o que demonstrou serem aptos na detecção de anomalias.

1. Introdução Um dos maiores problemas enfrentados pelos profissionais de segurança da informação são os ataques sofridos em suas redes. O Centro de Estudos, Resposta e Tratamento de Incidentes de Segurança no Brasil (CERT), registra desde 1999 um número crescente de ataques no Brasil [Cert 2013]. Para solucionar tais ameaças faz-se necessária a pesquisa cientifica com a finalidade de criar soluções eficientes na detecção e prevenção de novos ataques. Este artigo teve como objetivo principal testar a confiabilidade da mineração de dados em conjunto com os sistemas adaptativos de inferência neuro-fuzzy (ANFIS) na classificação binária de ataques a redes de computadores. 2. Lógica fuzzy A lógica fuzzy ou nebulosa teve seus estudos iniciados com a publicação do artigo Fuzzy sets por Lotfi A. Zadeh veiculado no Information and Control journal em 1965. Diferente da lógica clássica que utiliza os valores verdadeiro ou falso ao tratar da pertinência de um elemento em um conjunto, esta propõe graduar a pertinência de um elemento com um valor entre 0 e 1, obtido através de uma função matemática, chamada função de pertinência. A forma com a qual a lógica fuzzy quantifica a pertinência de um elemento em um conjunto é bastante similar com a forma que os seres humanos classificam informações [Pires e Nascimento JR. 2002]. 3. Funções de pertinência Segundo Sancho-Royo e Verdegay (1999) as funções de pertinência devem cumprir os seguintes critérios: a) representatividade; b) unicidade; c) significância, em relação aos conjuntos que representam. As funções de pertinência utilizadas nesse trabalho estão listadas na Tabela 1. Os gráficos foram gerados com a função plot do MATLAB.

Tabela 1. Funções de pertinência Nome Função matemática Gráfico Trapezoidal Gaussiana Produto sigmóidal Linear Constante 4. ANFIS Proposto por Jyh-Shing Roger Jang, é um sistema de inferência fuzzy do tipo Takagi-Sugeno, com arquitetura similar a uma rede neural (ver Figura 1). Utiliza dados da própria base a ser analisada para ajustar tanto as funções de pertinência quanto as regras de inferência [Jang 1993].

Figura 1. Arquitetura ANFIS [Favieiro e Balbinot 2012] Os métodos de ajuste propostos por Jang foram backpropagation e um híbrido entre backpropagation e mínimos quadrados. O backpropagation é um método de treinamento de redes multicamadas, que compara valores desejados com obtidos e tenta minimizar qualquer diferença apresentada. É considerado um dos métodos mais eficientes e simples [Cun 1988]. A técnica de mínimos quadrados é utilizada para resolver sistemas de equações de forma aproximada, ao invés de buscar a solução exata do sistema, busca minimizar a soma dos quadrados entre os valores observados e os valores verdadeiros.[moler 2004]. 5. Experimento O experimento descrito neste artigo consistiu em testar três modelos ANFIS mostrados na Tabela 2, verificando suas taxas de erro. A ferramenta MATLAB foi utilizada em todas etapas. Funções de pertinência de entrada Tabela 2. Modelos ANFIS Função de pertinência de saída Trapezoidal Gaussiana Produto sigmóidal Linear Constante Constante As opções listadas na Tabela 3 foram mantidas iguais nos três modelos.

Opção Tabela 3. Opções Valor Sistema de inferência Método de otimização Partição em grade Híbrido Tolerância a erro 0 Épocas de treinamento 3 Foi utilizada uma base de dados pública de ataques chamada KDDCUP99, extraída de uma competição anual de mineração de dados e descoberta de conhecimento. Esta base contém 42 colunas mas foram utilizadas somente as colunas descritas na Tabela 4, selecionadas por Narendran (2009) utilizando o filtro AttributeSelection da ferramenta WEKA. Coluna protocol type service src bytes dst bytes count Tabela 4. Colunas utilizadas Descrição Protocolos utilizados nas conexões Serviço de destino das conexões Bytes enviados da origem das conexões Bytes enviados do destino das conexões Numero de conexões vindas de um mesmo host A base é composta por 494.022 conexões e para fins de treinamento, validação e checagem dos ANFIS foram criados os subconjuntos listados na Tabela 5 de forma aleatória. Subconjunto Tabela 5. Subconjuntos Descrição Treinamento Validação Checagem 50 ataques e 50 normais 100 conexões 100 mil conexões 6. Resultados As taxas de erro obtidas no MATLAB utilizam a raiz do desvio quadrático médio (RMSD). Calculada a partir da Equação 1, sendo y um vetor com n predições e ŷ um vetor com os valores

reais, a equação tem como função mostrar a distância média entre os valores previstos e o valores verdadeiros [Johnson, 1995]. Equação 1. Raiz do desvio quadrático médio (1) Os resultados esperados eram 0 e 1 representando ausência ou presença de ataque, mesmo apresentando estes valores na maioria das conexões testadas, foi possível observar altas concentrações de valores no intervalo [0, 1] e em alguns casos baixas ocorrências mais distantes do esperado. As taxas de erro obtidas nos testes estão dispostas na Tabela 6. As colunas treinamento, validação e checagem mostram as respectivas taxas de erro de cada etapa. Tabela 6. Taxas de erro Função Treinamento Validação Checagem Trapezoidal 0.0000064 0.12826 0.12148 Gaussiana 0.0004064 0.18412 0.42045 Produto Sigmóidal 0.0012781 0.12651 0.14143 As subseções a seguir, discutirão detalhes de cada etapa nos três modelos usados no experimento. Os testes estão dispostos no eixo x e os valores obtidos no eixo y. Os elementos vermelhos representam a saída dos ANFIS e os azuis os valores reais. 6.1. Função trapezoidal A função trapezoidal apresentou a menor taxa de erro de checagem e demonstrou uma taxa de erro no treinamento extremamente baixa (Figura 2).

Figura 2. Treinamento Na etapa de validação demonstrou apenas 5 valores incorretos, variando entre 0.2 e 0.5 (Figura 3). Figura 3. Validação Na checagem, apresentou forte concentração de valores iguais a 0.5 e pertencentes ao intervalo [0, 1] o que contribuiu para a baixa taxa de erro, também apresentou uma pequena concentração nos intervalos [0, -1] e [1, 1.5], conforme Figura 4. Figura 4. Checagem 6.2. Função gaussiana A função gaussiana apresentou a maior taxa de erro de checagem do experimento. Demonstrou uma alta taxa de acerto de treinamento (ver Figura 5).

Figura 5. Treinamento Mostrou apenas 3 erros durante a validação (ver Figura 6). Figura 6. Validação Porém durante a checagem apresentou uma forte concentração de valores próximos a 2, também apresentou uma pequena concentração de valores no intervalo [0, -12] conforme Figura 7.

Figura 7. Checagem 6.3. Função produto sigmóidal Apresentou taxa de erro de checagem próxima a da função trapezoidal e baixa taxa de erro na etapa de treinamento (ver Figura 8). Figura 8. Treinamento Durante a validação apresentou apenas 4 erros, sendo 2 com distâncias variando entre 0.05 e 0.1 (ver Figura 9).

Figura 9. Validação Na etapa de checagem apresentou uma mediana concentração no intervalo [0, 1] e uma pequena concentração próximo de 2 (ver Figura 10). Figura 10. Checagem 7. Conclusão Como demonstrado na seção anterior, o modelo que utiliza função de pertinência trapezoidal apresentou a menor taxa de erro de checagem contra um conjunto de 100 mil conexões aleatórias, no entanto os três modelos testados se mostraram aptos a detectarem anomalias em conexões, com taxas próximas às atingidas pelo modelo mais eficiente.

Referências Centro de Estudos, Resposta e Tratamento de Incidentes de Segurança no Brasil (2013) Estatísticas dos Incidentes Reportados ao CERT.br http://www.cert.br/stats/incidentes/ Pires, J. R. C. e Nascimento JR, C. L. (2002) Controle fuzzy para braço robótico utilizando anfis do matlab, VIII Encontro de iniciação cientifica e Pós-graduação do ITA. Sancho-Royo, A. e Verdegay, J. L. (1999) Methods for the Construction of Membership Functions, International Journal of Intelligent Systems vol. 14, edição 12 Dezembro 1999. p. 1213-1230. Jang, J. R. (1993) ANFIS: adaptive-network-based fuzzy inference system, IEEE Transactions on Systems, Man and Cybernetics, vol. 23, edição 3, Maio/Junho 1993, p. 665-685. Favieiro, G. W. e Balbinot, A. (2012) Proposal of a Neuro Fuzzy System for Myoelectric Signal Analysis from Hand-Arm Segment, Computational Intelligence in Electromyography Analysis - A Perspective on Current Applications and Future Challenges, Dr. Ganesh R. Naik (Ed.), ISBN: 978-953-51-0805-4, InTech, DOI: 10.5772/48793. Cun, Y, L. (1988) A Theoretical Framework for Back-Propagation, Proceedings of the 1988 Connectionist Models Summer School, 1988, p. 21-28 Moler, C, (2004) Numerical Computing with MATLAB, Society for Industrial and Mathematics, 2004, p. 27 Narendran, C. R., (2009) Data Mining - Classification Algorithm - Evaluation disponível http://narensportal.com/papers/datamining-classification-algorithm.aspx Applied Johnson, L. L., (1995) A Comparison of Methods for Estimating RMS Error: A `Brute Force" Approach Versus a Mathematically-Elegant Approach, as Applied to the Calculation of a Specific Retrieval Error for a Limb-Scanning Microwave Radiometer-Spectrometer., Air Force Institute of Technology, Dezembro 1995, p. 23 em: