TÍTULO: COMPARAÇÃO DE TÉCNICAS INTELIGENTES PARA A DETEÇÃO DE SPAM EM REDES DE COMPUTADORES

Transcrição

1 TÍTULO: COMPARAÇÃO DE TÉCNICAS INTELIGENTES PARA A DETEÇÃO DE SPAM EM REDES DE COMPUTADORES CATEGORIA: CONCLUÍDO ÁREA: CIÊNCIAS EXATAS E DA TERRA SUBÁREA: COMPUTAÇÃO E INFORMÁTICA INSTITUIÇÃO: FACULDADE DE TECNOLOGIA DE BAURU AUTOR(ES): ATAIR ALVES CAMARGO JUNIOR, HENRIQUE P. MARTINS, KELTON A. P. DA COSTA, LUIS ALEXANDRE DA SILVA, MIGUEL NEVES ORIENTADOR(ES): PATRICIA BELLIN RIBEIRO

2 1. RESUMO Nas últimas décadas as anomalias em redes de computadores têm aumentado gerando uma preocupação e uma necessidade de criação de técnicas para identificar esses padrões de tráfegos incomuns. Esta pesquisa tem como objetivo a utilização de técnicas de mineração de dados, a fim de identificar corretamente o tipo de anomalia considerada Spam em mensagens eletrônicas ( s), para isso foi utilizada a ferramenta Weka que é composta por uma coleção de algoritmos de aprendizado de máquina para tarefas de mineração de dados, com a finalidade de identificar e analisar esse tipo de anomalia em um conjunto de dados de mensagens eletrônicas chamado SPAMBASE, gerando resultados para comparação da eficiência das técnicas utilizadas. 2. INTRODUÇÃO Nos últimos anos, várias pesquisas em ciência da computação foram conduzidas salientando o uso de redes neurais artificiais, mineração de dados e técnicas como árvore de decisão em uma tentativa de minimizar a taxa de recebimento de Spam no âmbito comercial e pessoal (CARRERAS; MARQUEZ, 2001; CORTEZ et al., 2009; RASIM; RAMIZ; SAADAT, 2011; KUFANDIRIMBWA; GOTORA, 2012; KUMAR; POONKUZHALI; SUDHAKAR, 2012; BORGES; MARQUES; BERNARDINO, 2013; RATHI; PAREEK, 2013). Entre uma ampla variedade de técnicas de aprendizagem automática, a mineração de dados pode ser considerada uma das mais utilizadas, esta faz parte do processo do KDD-based (Knowlegde Discovery in Datasets Descoberta de Conhecimento em Banco de Dados), cuja finalidade é encontrar padrões correlacionados sobre um interesse específico. Os passos para a aplicação do KDD podem ser apresentados de forma cognitiva, interativa e exploratória baseados nas seguintes fases: (i) definir o tempo de conhecimento a ser buscado, (ii) definir um conjunto de dados, (iii) pré-processar e reduzir o conjunto de dados, e (iv) então realizar a mineração de dados que busca interpretar os padrões descobertos (FAYYAD; PIATESKY-SHAPIRO; SMYTH, 1996; NARENDRAN, 2009). s Spam (lixo eletrônico) fazem parte de umas das áreas mais problemáticas da era da internet, que podem trazer prejuízo financeiro à organizações e danos à todos os usuários em geral. Por exemplo, Rambow et al. (2004), aplicou o classificador the

3 Ripper para identificar características linguísticas para definir se um é Spam ou não. Carreras e Marquez (2001) utilizaram o classificador árvore de decisão no mesmo contexto. Redes Bayesianas são amplamente usadas como uma técnica popular para detecção de Spams (SAHAMI; HECKERMAN; HORVITZ, 1998; RAMIZ; SAADAT, 2011; EROSHEVA; FIENBERG, 2004; KUFANDIRIMBWA; GOTORA, 2012), bem como lógica Fuzzy (MOHAMMAD, 2011) e outros métodos baseados em regras (BIRO; BENCZUR; SIKLOSI, 2009). Outras pesquisas também utilizaram o famoso algoritmo do vizinho mais próximo (k-nearest neighbor) (PERKINS, 2001), para detectar Spams, e também uma ampla variedade de métodos de aprendizagem automática como a mineração de dados TANAGRA que foi aplicada por Kumar, Poonkuzhali e Sudhakar (2012), no mesmo contexto. Cortez et al. (2009), descreveu uma abordagem de mineração de dados simbiótica, que unifica filtragem baseada no contexto com a filtragem colaborativa melhorando o contexto de detecção de Spam. Borges, Marques e Benardino (2013), compararam quatro ferramentas livres de mineração de dados com o mesmo propósito: KNIMME, Orange, RapidMiner e Weka, sendo seu objetivo descobrir a técnica mais precisa entre elas: classificação Bayesiana (Naïve Bayes), os mais próximos vizinhos (k-nearest neighbors), máquinas de vetores de suporte (Support Vector Machines) e classificador C4.5. Os resultados dos experimentos mostraram que não há uma única ferramenta ou técnica que sempre terá os melhores resultados. Bahrololum e Khaleghi (2008), propuseram um sistema de detecção de intrusões baseado no modelo de mistura Gaussiana, na qual a ideia era modelar os padrões de atividades normais e de intrusão para então classificar futuras amostras. A probabilidade máxima entre as diferentes amostras foi usada para distinguí-las, sendo que o banco de dados KDD 99 foi utilizado para executar o estudo (HETTICH; BAY, 1999). Buchtala, Klimek e Sick (2005), utilizaram um algoritmo evolutivo (AE) para realizar simultaneamente a seleção de características e modelos para quatro problemas de mineração de dados: detecção de intrusões em redes de computadores, verificação de assinaturas biométricas, métodos de marketing direto de vendas e a otimização de processos de produção química. Este mostrou que, em comparação com as técnicas de otimização baseadas em AE anteriores, o tempo de execução é reduzido em até 99%, enquanto a taxa de erros caiu em até 86% dependendo da aplicação. Liu et al. (2011), descreveram uma abordagem de detecção de anomalias usando uma rede neural probabilística otimizada.

4 Primeiramente usaram um algoritmo de estímulo adaptativo básico (AdaBoost) e analisaram suas desvantagens, e então utilizaram um algoritmo AdaBoost melhorado para classificar os eventos detectados como normais ou intrusivos. Sharms e Mercer (2013), apresentaram um método de classificação de Spam que usa características baseadas nas propriedades do tais como a frequência de palavras em Spams, tags de html, características de linguagem como gramática e erros de ortografia, entre outros. As características foram extraídas de quatro banco de dados de referência: CSDMC2010, Spam Assassin, Ling Machine, e classificação Bayssiana. Embora o experimento focou somente em s na língua inglesa, os resultados indicaram que o método proposto pode ser uma excelente abordagem para classificar Spams em outras línguas. Embora existam muitos estudos para detecção de Spams, apenas poucos deles focaram em uma única ferramenta para propósitos de comparação. Por isso, este estudo busca comparar três técnicas de reconhecimento de padrões utilizando a ferramenta Weka com: Multi-Layer Perceptron (MLP) usando redes neurais artificiais, Radial Basis Function (RBF) e o classificador baseado em árvore de decisão J48. Para este propósito, foi utilizado uma base com um conjunto de s chamado SPAMBASE (HOPKINS et al., 2014), que contêm amostras previamente rotuladas, onde rotuladas como normais (39,40%) e o restante, rotuladas como Spam (60,60%). Este estudo está organizado da seguinte maneira: a seção 3 apresenta os objetivo específico do trabalho, a seção 4 aborda uma breve revisão teórica sobre as técnicas usadas neste trabalho. As seções 5 e 6 apresentam a metodologia e os resultados dos experimentos. Finalizando, a seção 7 demostra as conclusões. 3. OBJETIVOS Utilizar técnicas de mineração de dados, a fim de identificar corretamente o tipo de anomalia considerada Spam em mensagens eletrônicas ( s). 4. METODOLOGIA Nesta seção, uma revisão teórica será brevemente apresentada sobre as técnicas de reconhecimento de padrões utilizadas neste trabalho. Sendo elas: o classificador

5 árvore de decisão J48 e as redes neurais artificiais MLP e RBF. Além disso, a ferramenta Weka é descrita DECISION TREE (J48) O classificador de árvore de decisão J48 é uma implementação de código livre Java do algoritmo C4.5 na ferramenta de mineração de dados Weka. Tal técnica foi utilizada para gerar uma árvore de decisão usando o conceito de entropia da informação, que pode ser usado para propósitos de classificação estatística (KARIMI; HAMILTON, 2002). A técnica produz um conjunto de regras chamadas de listas de decisão, trabalhando para formar um árvore de decisão parcial e imediatamente convertê-la em uma regra correspondente. O critério de separação é o ganho da informação normalizada. Por isso, o atributo com o maior ganho da informação normalizada é escolhido para formar a decisão (KOTSIANTIS, 2007) RADIAL BASIS FUNCTION (RBF) Funções de base radiais foram empregadas com sucesso em vários problemas de aprendizagem automatizada, e seu uso foi amplamente relatado na literatura. Tais abordagens são parte da rede neurais artificiais onde as funções de base radiais são usadas para computar a ativação de neurônios ocultos, e foram empregados em funções de aproximação e problemas de reconhecimento de padrões, com sucesso. Em geral, redes RBF estão associadas com arquiteturas compostas por três camadas, onde uma combinação não-linear dos resultados dos neurônios ocultos é então usada para calcular a resposta da rede neural artificial de uma amostra de dados (SILVA et al., 2010; BUCHTALA; KLIMEK; SICK, 2005; LIJUAN, 2009; GOVINDARAJAN; CHANDRASEKARAN, 2011). Khade, Kumar e Bhattacharya (2012), descreve que redes neurais RBF fazem parte da ferramenta Weka que implementa a rede de funções de base radiais Gaussiana. Este usa o algoritmo de média de um grupo (k-means clustering) para gerar as funções base e aprender tanto uma regressão logística (problemas de classe discreta) ou uma regressão linear (problemas de classe numérica). Classificação Gaussiana multivariada simétrica é adaptada para cada grupo de dados. Este

6 também padroniza todos os atributos numéricos da média zero e variação de unidades (KHADE; KUMAR; BHATTACHARYA, 2012; RAMBOW et al., 2004) MULTI-LAYER PERCEPTRON (MLP) A rede MLP utiliza o método de aprendizagem supervisionado (HAYKIN, 2009; SILVA; SPATTI; FLAUZINO, 2010). Tal técnica calcula a taxa de erro da camada de saída e retropropaga o resultado para as camadas ocultas para atualizar o peso de todas as camadas através do algoritmo de aprendizagem Backpropagation (HAYKIN, 2009). O processo de treinamento tem duas fases: (i) a propagação que é usada para gerar o resultado de ativação de um padrão de treinamento de um dado, e (ii) a retropropagação que usa o resultado real e de rede para atualizar o peso de ativação de todas as camadas, buscando minimizar a taxa de erro de treinamento (HAYKIN, 2009). A rede neural MLP somente será considerado treinado quando a taxa de erro entre os resultados estiver reduzido à um valor aceitável, isto é, um critério de convergência. De acordo com Haykin (2009), o algoritmo segue várias etapas: inicialização, apresentação da amostra de treinamento, propagação e retropropagação WEKA DATA MINING TOOL O Weka é uma popular ferramenta de aprendizagem automático escrito em Java, desenvolvido pelo Universidade de Waikato, Nova Zelândia. Este software está disponível sob a Licença Pública Geral (GNU) que contém uma coleção de ferramentas gráficas, algoritmos de análise de dados e modelos de predição, em conjunto com interfaces gráficas para um acesso facilitado às funcionalidades. Suporta várias tarefas de mineração de dados padrão, mais especificadamente, préprocessamento de dados, agrupamento (clustering), classificação, regressão, visualização e seleção de características. Todas as técnicas do Weka são predicadas na suposição que os dados estão formatados em um único arquivo ou relacionado onde cada ponto dos dados é descrito por um número fixo de atributos que podem ser numéricos ou nominais, porém alguns outros atributos também são compatíveis (WITTEN; FRANK; HALL, 2011; HOLMES; DONKIN; WITTEN, 1994). O painel de pré-processamento tem alguns recursos para importar dados de um banco de dados

7 (um arquivo CVS, por exemplo) e também algoritmos para realizar a filtragem dos dados. Os filtros podem ser usados para transformar, os atributos numéricos em discretos, tornando possível deletar instâncias e atributos de acordo com certos critérios (WITTEN; FRANK; HALL, 2011). O painel de classificação permite ao usuário aplicar algoritmos de classificação de regressão no banco de dados, estimar a precisão do modelo de resultado de predição, e além disso, visualizar as predições errôneas, com a técnica de curva Receiver Operating Characteriscs (ROC), ou até o próprio modelo. O formato de arquivo da ferramenta Weka é o modelo Attribute- Relation file format (ARFF) que é um arquivo de texto ASCII. 5. DESENVOLVIMENTO Nesta seção, apresentaremos a metodologia empregada para validar os resultados entre os classificadores descritos na seção 4. Para analisar a quantidade de anomalias, foi utilizado o banco de dados SPAMBASE, que contém 57 atributos relacionados a frequência de algumas palavras no conteúdo de s. Este banco de dados foi criado para aperfeiçoar a segurança de software de redes de computadores. Ataques usando s com Spam podem causar prejuízo relacionados a perda de tempo desnecessária, aumento de custo, perda de produtividade, conteúdo impróprio, ofensivo e perda financeira causada por fraude. O banco de dados pode ser carregado na ferramenta Weka usando o formato de arquivo ARFF, supramencionado, cada coluna contém um atributo dos dados, que representa um palavra e sua frequência. Um método estatístico padrão chamado de validação cruzada (HAYKIN, 2009), foi escolhido para avaliar a efetividade das técnicas comparadas. Tal abordagem particiona randomicamente o banco de dados em grupo de teste e treinamento, sendo o primeiro composto por 75% de todo o conjunto de dados, e o último contém os 25% restantes do conjunto de dados (estas porcentagens foram escolhidas empiricamente). Este procedimento foi realizado por 10 vezes, sendo que a precisão média foi empregada em propósito de comparação. Adicionalmente, uma técnica chamada curva ROC (SURI; RANGAYYAN, 2006), foi usada para avaliar a sensibilidade dos classificadores em pesquisas similares. Cada ponto da curva representa um limiar diferente entre o resultado da fração de verdadeiro positivo e a fração de falso positivo, gerando uma curva que mostra a relação entre a força do

8 teste com a probabilidade de cometer um erro. Por isso, cada ponto da curva ROC descreve um critério para distinguir os dados normais dos anormais. De acordo com Metz (1996), uma curva ROC representa a performance que pode ser alcançada entre a sensibilidade e a especificidade de um sistema de diagnóstico quando um limiar é alterado. Uma comparação entre os sistemas pode ser realizado através das áreas da curva de cada sistema (SURI; RANGAYYAN, 2006). A área Az é um dos índices mais frequentemente usados da curva ROC, e está área representa os resultados corretos no sistema (classificador), isto é, quando maior a área, maior é a quantidade de resultados corretos. Isto significa que se o sistema for bem balanceado e altamente preciso, a curva deveria estar o mais próximo possível da parte esquerda superior do eixo cartesiano, aumentando a área da curva (DORFMAN; ALF, 1969; HANLEY; MCNEIL, 1983). 6. RESULTADOS Nesta seção, será apresentado os resultados obtidos usando a metodologia previamente descrita. As tabelas 1, 2 e 3 apresentam os resultados das técnicas J48, RBF e MLP respectivamente. O algoritmo J48 obteve uma taxa de reconhecimento médio de 92,76%, onde 89,79% da amostra de s não Spam foram corretamente classificados, e 93,34% da amostra de s Spam foram corretamente reconhecidos. Observando que o Az empregado foi igual à 0,941. Tabela 1. Matrix de Confusão J48. Spam Não Spam Taxa% 2.602,32 185,68 93,34% 185, ,89 89,79% Taxa Média %: 92,76% A rede neural RBF foi ajustada conforme: 57 atributos de entrada, uma camada oculta com 2 neurônios e uma camada de saída com 1 neurônio. Após a finalização do processo de aprendizagem, foi possível obter uma taxa de conhecimento média de 84,30%, onde 78,60% da amostra de s de não Spam foram corretamente classificada e 89,99% da amostra de s Spam foram corretamente classificadas. Observe que o Az empregado foi igual à 0,920. Tabela 2. Matrix de Confusão RBF. Spam Não Spam Taxa% ,99% ,60% Taxa Média %: 84,30%

9 A arquitetura da rede MLP foi ajustada da seguinte forma: 57 atributos de entrada, uma camada intermediaria com 68 neurônios, e uma camada de saída com 1 neurônio. Uma taxa de aprendizagem de 0,3 e momentum igual à 0,2. Após a finalização do algoritmo de aprendizagem, foi possível obter uma taxa de reconhecimento de 93,89%, sendo que 93,87% dos s de não Spam foram corretamente classificados e 93,93% dos s Spam foram corretamente classificadas. Observando que o AZ empregado foi igual à 0,980. Tabela 3. Matrix de Confusão MLP. Spam Não Spam Taxa% 2.617,10 170,90 93,93% 110, ,95 93,87% Taxa Média %: 93,89% 7. CONSIDERAÇÕES FINAIS Atualmente, muitas pesquisas sobre redes de computadores e campos relacionados, empregam o uso de técnicas de aprendizagem automática para analisar o comportamento e habilidade para detectar qualquer possível anomalia de uma certa rede. Neste trabalho, o problema de detecção de Spam foi focado, utilizando a ferramenta Weka para comparar a efetividade de alguns algoritmos de aprendizagem com relação ao problema. Sendo abordadas as seguintes técnicas inteligentes: J48, RBF e a MLP. Os resultados dos experimentos foram analisados através da teoria da curva ROC. As taxas de reconhecimento demonstraram que o classificador J48 com 92,76% e o MLP com 93,89% obtiveram resultados muitos parecidos, seguidos dos resultados da rede RBF com um total de taxa de acerto de 89,99%. Para futuros trabalhos, poderá ser empregadas novas técnicas de reconhecimento de padrões com o mesmo propósito, tão quanto investigar abordagens que nunca foram aplicadas neste contexto. 8. FONTES CONSULTADAS BAHROLOLUM, M.; KHALEGHI, M. Anomaly Intrusion Detection System Using Gaussian Mixture Model. Convergence and Hybrid Information Technology, ICCIT '08. Third International Conference on, vol.1, no., pp.1162,1167, 11-13, Nov BIRO, I.; SZABO, J.; BENCZUR A.; SIKLOSI, D. Linked Latent Dirichlet Allocation in Web Spam Filtering. In Proceedings of the 4th International Workshop on Adversarial Information Retrieval on the Web (AIR Web), Madrid, Spain, 2009.

10 BORGES, L. C.; MARQUES, V. M.; BERNARDINO, J. Comparison of data mining techniques and tools for data classification. In Proceedings of the International C* Conference on Computer Science and Software Engineering. ACM, New York, NY, USA, , BUCHTALA, O.; KLIMEK, M.; SICK, B., Evolutionary optimization of radial basis function classifiers for data mining applications. Systems, Man, and Cybernetics, Part B: Cybernetics, IEEE Transactions on, vol. 35, no.5, p , Oct Carreras, X.; Marquez, L. Boosting trees for anti spam filtering. In International conference on Recent Advances in Natural Language Processing, p , CORTEZ, P.; LOPES, C.; SOUSA, P.; ROCHA, M.; Rio, M. Symniotic data mining for personalized spam filtering. In the Proceedings of the International Conference on Web Intelligence and Intelligent Agent Technology, p , DORFMAN, D.; ALF, E. Maximum likelihood estimation of parameters of signal detection theory and determination of confidence intervals-rating method data. Journal of Mathematical Psychology, 6, p , EROSHEVA, E. A.; FIENBERG, S. E. Bayesian mixed membership models for soft clustering and classification. Proceedings of National Academy of Sciences, 97(22): , FAYYAD, U. M.; PIATESKY-SHAPIRO, G.; SMYTH, P. From Data Mining to Knowledge Discovery: An Overview. In: Advances in Knowledge Discovery and Data Mining. AAAI Press, GOVINDARAJAN, M.; CHANDRASEKARAN, R. M., Signature verification using radial basis function classifier. Electronics Computer Technology (ICECT), rd International Conference on, vol.5, no., p.182,185, 8-10 April HANLEY, J. A.; MCNEIL, B. J. A method of comparing the areas under receiving operating characteristic curves derived from the same cases. Radiology, 148, p , HAYKIN, S. Neural Networks and Learning Machines. Editora Prentice Hall, 3 Ed., p. 936, HETTICH, S.; BAY, S. D. The UCI KDD Archive. Irvine, CA: University of California, Department of Information and Computer Science, HOLMES, G.; DONKIN, A.; WITTEN, I. H. Weka: A machine learning workbench. Proc Second Australia and New Zealand Conference on Intelligent Information Systems. Australia: Brisbane, HOPKINS, M.; REEBER, E.; FORMAN, G.; SUERMONDT, J. SPAMBASE. Disponível em: Acesso em: 20 Agosto de KARIMI, K.; HAMILTON, H. J. TimeSleuth: A Tool for Discovering Causal and Temporal Rules. ICTAI, KHADE, G., KUMAR, S., BHATTACHARYA, S. Classification of Web pages on Attractiveness: A Supervised Learning Approach. IEEE Procedings of 4th International Conference on Intelligent Human Computer Interaction, p , KOTSIANTIS, S. B. Supervised Machine Learning: A Review of Classification Techniques, Informática 31, , KUFANDIRIMBWA, O.; GOTORA, R. Spam detection using Artificial Neural Networks. In Online Journal of Physical and Environmental Science Research, 1:22-29, KUMAR KISHORE, R.; POONKUZHALI, G.; SUDHAKAR, P. Comparative study on spam classifier using data mining techniques. Lecture Notes in Engineering and Computer Science, 1, p , LIJUAN, Zhou; MINHUA, Wu; MINGSHENG, Xu; HAIJUN, Geng; LUPING, Duan, Research of Data Mining Approach Based on Radial Basis Function Neural Networks. Knowledge Acquisition and Modeling, KAM '09. Second International Symposium, vol.2, p , Dec LIU, W.; Ren, P.; LIU, K.; DUAN, H., Intrusion Detection Using SVM, Wireless Communications. Networking and Mobile Computing (WiCOM), th International Conference on, vol., no., pp.1,4, 23 25, METZ, C. E. ROC Methodology in Radiologic Imaging. Investigative Radiology, v. 21, p , MOHAMMAD, N. T. A Fuzzy clustering approach to filter spam . Proceedings of World Congress on Engineering, WCE-2011, vol. 3, NARENDRAN, C. R. Data Mining - Classification Algorithm Evaluation PERKINS, A. The classification of search engine spam. management.com/white papers/spam classification, RAMBOW, O.; SHRESTHA, L.; CHEN, J.; LAURIDSEN, C. Summarizing Threads. In Proceedings of HLT-NAACL 2004: Short Papers, p , RASIM M. A.; RAMIZ M. A.; SAADAT A. N. Classification of Textual spam using Data

11 Mining Techniques. In the Journal of Applied Computational Intelligence and Soft Computing, RATHI, M.; PAREEK, V. Spam Mail Detection through Data Mining A Comparative Performance Analysis. I. J. Modern Education an Computer Science, 12, 31-39, SAHAMI, M.; DUMASI, S.; HECKERMAN, D.; HORVITZ, E. A Bayesian approach to filtering junk In Learning for text categorization. Papers from the 1998 Workshop, Madison, Wisconsin, SHAMS, R.; MERCER, R.E. Classifying Spam s Using Text and Readability Features. Data Mining (ICDM), 2013 IEEE 13th International Conference, p , Dec SILVA, I. N.; SPATTI, D.H.; FLAUZINO, R. A. Redes Neurais Artificiais: para engenharia e ciências aplicada. Ed. Artliber,. p. 399, SILVA, L. E. V.; DUQUE, J. J.; TINÓS, R.; MURTA JR, L. O. Reconstruciton of Multivariate Signals Using Q-Gaussian Radial Basis Function Network. Computing in Cardiology, 37, p , SURI, J. S.; RANGAYYAN, R. M. Recent Advances in Breast Imaging, Mammography, and Computer-Aided Diagnosis of Breast Cancer. Bellingham, Washington, SPIE Press, WITTEN, I. H.; FRANK, E.; HALL, M. A. Data Mining: Practical machine learning tools and techniques. 3 ed. San Francisco: Morgan Kaufmann, 2011.