30.510-000, Belo Horizonte, MG, Brasil alisson@lsi.cefetmg.br, gray@dppg.cefetmg.br,pema@dri.cefetmg.br



Documentos relacionados
UNIVERSIDADE FEDERAL DE SANTA CATARINA

Análise e visualização de dados utilizando redes neurais artificiais auto-organizáveis

PALAVRAS-CHAVE: Massas Nodulares, Classificação de Padrões, Redes Multi- Layer Perceptron.

Aprendizagem de Máquina

Manual do Painel Administrativo

Pós-Graduação em Engenharia Elétrica Inteligência Artificial

Complemento II Noções Introdutória em Redes Neurais

Do neurônio biológico ao neurônio das redes neurais artificiais

Aprendizagem de Máquina

O primeiro passo é verificar se a pasta Junk está disponível entre as pastas IMAP do usuário:

LISTA DE EXERCÍCIOS. Mede a capacidade de comunicação de computadores e dispositivos. Operam em diferentes plataformas de hardware

MÓDULO 7 Modelo OSI. 7.1 Serviços Versus Protocolos

3 SERVIÇOS IP. 3.1 Serviços IP e alguns aspectos de segurança

Manual do Usuário - ProJuris Web - Fila de s Página 1 de 8

Outlook Apresentação

Critérios para certificação de Sites SciELO: critérios, política e procedimentos para a classificação e certificação dos sites da Rede SciELO

MLP (Multi Layer Perceptron)

Política de privacidade do Norton Community Watch

Redes Neurais. A IA clássica segue o paradigma da computação simbólica

Figura 5.1.Modelo não linear de um neurônio j da camada k+1. Fonte: HAYKIN, 2001

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka

4 Segmentação Algoritmo proposto

ADM041 / EPR806 Sistemas de Informação

Matlab - Neural Networw Toolbox. Ana Lívia Soares Silva de Almeida

Projeto de Arquitetura

ARQUITETURA DE UM SISTEMA SPATIO-TEXTUAL. PALAVRAS-CHAVE: banco de dados espaciais, busca spatio-textual. aplicativo.

Diego Ramon Gonçalves Gonzalez João Vitor Costa Pércia Tiago Afonso Monteiro

Aula 2 RNA Arquiteturas e Treinamento

(eletronic mail )

Curso de atualização Educação Integral e Integrada. Tutorial Moodle. Belo Horizonte, 2013.

IN Redes Neurais

WebMail Manual do cliente

Tutorial: Webmail. Dicas de Uso e Funcionalidades 02/2015. Versão 01

Segurança da Informação na Internet no Brasil: Últimos Estudos do Comitê Gestor da Internet no Brasil e Iniciativas para Aumentar a Segurança

5 Extraindo listas de produtos em sites de comércio eletrônico

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos

Novell. Novell Teaming 1.0. novdocx (pt-br) 6 April 2007 EXPLORAR O PORTLET BEM-VINDO DESCUBRA SEU CAMINHO USANDO O NOVELL TEAMING NAVIGATOR

Inteligência Artificial. Redes Neurais Artificiais

Disciplina: Introdução à Informática Profª Érica Barcelos

PROTÓTIPO DE SOFTWARE PARA APRENDIZAGEM DE REDES NEURAIS ARTIFICIAIS

7.Conclusão e Trabalhos Futuros

Introdução ao GetResponse

INF 1771 Inteligência Artificial

ISO/IEC 12207: Gerência de Configuração

Arquitetura dos Sistemas de Informação Distribuídos

GESTOR ONLINE Gestor Online Principais Recursos:

Como funciona? SUMÁRIO

Semana da Internet Segura Correio Eletrónico

XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO

Nathalie Portugal Vargas

FILTRAGEM DE INFORMAÇÃO NA WEB USANDO REDE NEURAL DE HOPFIELD E ONTOLOGIA

Segurança em Dispositivos Móveis. <Nome> <Instituição> < >

TUTORIAL DO ALUNO. Olá, bem vindo à plataforma de cursos a distância da Uniapae!!!

CONSTRUÇÃO DE BLOG COM O BLOGGER

2.1 Os projetos que demonstrarem resultados (quádrupla meta) serão compartilhados na Convenção Nacional.

4. Qual seria o impacto da escolha de uma chave que possua letras repetidas em uma cifra de transposição?

CLASSIFICAÇÃO AUTOMÁTICA DE PATENTES COM O MODELO VETORIAL DE REPRESENTAÇÃO DE DOCUMENTOS

GARANTIA DA QUALIDADE DE SOFTWARE

Nettion Security & Net View. Mais que um software, gestão em Internet.

O que é a ciência de dados (data science). Discussão do conceito. Luís Borges Gouveia Universidade Fernando Pessoa Versão 1.

Manual SAGe Versão 1.2 (a partir da versão )

INSTRUMENTO NORMATIVO 004 IN004

Desenvolvimento de aplicação web com framework JavaServer Faces e Hibernate

DESENVOLVIMENTO WEB DENTRO DOS PARADIGMAS DO HTML5 E CSS3

Manual dos Serviços de Interoperabilidade

Utilização do Webmail da UFS

3. Explique o motivo pelo qual os protocolos UDP e TCP acrescentam a informação das portas (TSAP) de origem e de destino em seu cabeçalho.

Imóvel Mix SGI. 1. Acesso ao Sistema 2. Aspectos Gerais 3. Configuração da Empresa 4. Cadastro de Usuários

Combate ao Spam no Brasil SPAM. Tipos de Spam. Correntes: Boatos e lendas urbanas. Propagandas. Ameaças, brincadeiras e difamação.

Monitoramento de Sistemas P05.002

Sistemas Operacionais e Introdução à Programação. Vetores e matrizes

Projeto de Redes Neurais e MATLAB

EROS DIGITAL - Política anti-spam TERMO DE COMPROMISSO

REGULAMENTO Faz-te ao Vídeo!

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

Gerenciamento de Riscos do Projeto Eventos Adversos

APLICAÇÃO REDE APLICAÇÃO APRESENTAÇÃO SESSÃO TRANSPORTE REDE LINK DE DADOS FÍSICA 1/5 PROTOCOLOS DE REDE

CURSOS OFERECIDOS. seus objetivos e metas. E também seus elementos fundamentais de Administração, como: PLANEJAMENTO, ORGANIZAÇÃO E CONTROLE.

TACTIUM ecrm Guia de Funcionalidades

3 Estratégia para o enriquecimento de informações

Pontos de Função. André Chastel Lima Andréia Ferreira Pinto Diego Souza Campos. Engenharia de Software Mestrado Ciência da Computação - UFMS

Chamada de Participação V Competição de Avaliação - IHC 2012

Prevenção. Como reduzir o volume de spam

1

Tabela de roteamento

Seu manual do usuário BLACKBERRY INTERNET SERVICE

Redes de Computadores. Prof. Dr. Rogério Galante Negri

Manual do Visualizador NF e KEY BEST

FKcorreios - Geração 2

MANUAL DO INSTAR-MAIL 1.0. Pagina de login e senha do Instar-Mail

Curva ROC. George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE

UNIVERSIDADE FEDERAL DE GOIÁS CERCOMP (CENTRO DE RECURSOS COMPUTACIONAIS) TUTORIAL DE USO DO WEBMAIL - UFG

A PÁGINA DISCIPLINAR DE MATEMÁTICA DO PORTAL DIA A DIA EDUCAÇÃO

DIMENSIONANDO PROJETOS DE WEB-ENABLING. Uma aplicação da Análise de Pontos de Função. Dimensionando projetos de Web- Enabling

Instalação: permite baixar o pacote de instalação do agente de coleta do sistema.

INFORMÁTICA FUNDAMENTOS DE INTERNET. Prof. Marcondes Ribeiro Lima

Transcrição:

26 a 28 de maio de 2010 Universidade Federal de São João del-rei MG Associação Brasileira de Métodos Computacionais em Engenharia DETECÇÃO DE SPAM UTILIZANDO REDES NEURAIS ARTIFICIAIS SOM Alisson Marques da Silva 1 ; Gray Farias Moita 1 ; Paulo E. M. Almeida 1 1 CEFET-MG - Laboratório de Sistemas Inteligentes, Av. Amazonas, 7675, Nova Gameleira 30.510-000, Belo Horizonte, MG, Brasil alisson@lsi.cefetmg.br, gray@dppg.cefetmg.br,pema@dri.cefetmg.br Resumo. Este trabalho apresenta um modelo neural de filtro anti-spam. Neste, os e-mails passam por um pré-processamento, que transforma as informações complexas, presentes em cada mensagem em informações mais simples, permitindo um melhor desempenho na classificação. Os métodos de seleção de características são empregados para reduzir a dimensionalidade das informações presentes em cada mensagem e as redes neurais Self-Organizing Maps (SOM) como agente classificador. O objetivo fundamental desta pesquisa é apresentar as Redes SOM, os métodos de extração de características Informação Mútua, χ 2 statistic (QUI), e variações do método Distribuição por Frequência. Bons resultados foram obtidos e são apresentados e avaliados no presente trabalho. Palavras-chave: E-mail, Spam, Redes Neurais Artificiais, SOM.

1. Introdução Cada vez mais presente na vida das pessoas, a internet revoluciona a maneira de se obter informações, de se fazer negócios e, até mesmo, a de se relacionar. Vários serviços são disponibilizados pela internet, entre eles o email ou correio eletrônico, que pode ser definido como uma forma de criar, enviar e receber mensagens por intermédio de sistemas eletrônicos. O e-mail tornou-se um dos mais importantes meios de comunicação e deixou de ser um simples meio de troca de mensagens para se tornar um grande fator de produtividade nas empresas, onde é cada vez mais utilizado como veículo oficial de comunicação. Segundo pesquisa realizada pela Meta Group WEB (2003), 80% dos usuários comerciais preferem o e-mail ao telefone, pois oferece, entre outras vantagens, a rapidez na comunicação, a possibilidade de se contactar várias pessoas simultaneamente e de gerar um registro dessa comunicação. A popularização do correio eletrônico fez com que esse serviço se tornasse bastante utilizado para envio de spam - termo utilizado para denominar o e-mail não solicitado, emitido de forma indiscriminada, direta ou indiretamente, por um remetente que não tem nenhum relacionamento com o destinatário (Cormack and Lynam, 2005). Os principais fatores que contribuem para o crescimento do número de spam são a facilidade de enviá-lo para um grande número de destinatários e de se obter endereços de e-mails válidos, além do baixo custo de envio (Cranor and LaMacchia, 1998). Desde 1994, quando surgiu o primeiro spam, a prática de enviar e-mails não solicitados tem sido aplicada com objetivos diversos, utilizando para isso diferentes aplicativos e meios de propagação na rede. O spam tem evoluído, acompanhando o desenvolvimento da internet, de novas aplicações e tecnologias. Atualmente, está associado não somente ao envio de mensagens publicitárias, mas também a ataques à segurança da internet e do usuário, propagando vírus e golpes (AntiSpam.br, 2009). Tão preocupante quanto o aumento descontrolado do volume de spam na rede são a sua natureza e os seus objetivos. O spam pode causar prejuízos aos usuários e às empresas, como: não recebimento de e- mails legítimos, perda de produtividade, acesso a conteúdo impróprio ou ofensivo, prejuízos financeiros causados por fraude, impacto no link de conexão com a internet, má utilização dos servidores, inclusão em listas de bloqueio, investimento em pessoal e equipamentos (Anti- Spam.br, 2009). O desenvolvimento de mecanismos de prevenção, detecção e proteção dos correios eletrônicos tornou-se imprescindível para o combate ao spam. Vários métodos para identificar e classificar os spams foram propostos, entre eles: listas de bloqueio, greylisting e filtros de conteúdos com diferentes técnicas, porém segundo Ozgur et al. (2004) nenhum deles é completamente satisfatório. Este trabalho avalia e compara os métodos de seleção de características Informação Mútua (MI), χ 2 statistic (QUI), três variações do método de Distribuição por Frequência (DF ) e as Redes Self-Organizing Maps (SOM) empregados na classificação de e-mails em legítimos e spams. Este artigo está organizado da seguinte forma: a Seção 2 apresenta uma introdução à categorização de textos, destacando as principais etapas do processo e os métodos de seleção de características; na Seção 3 são apresentadas às Redes Neurais com ênfase nas SOM; a Seção 4 constitui-se do relato dos experimentos executados e as medidas de desempenho utilizadas; na Seção 5 os resultados alcançados são apresentados; e por fim, na Seção 6 são descritas as principais conclusões obtidas com os experimentos.

2. Categorização de Textos A categorização de texto é uma técnica usada, principalmente, para descoberta do conhecimento, cujo objetivo é classificar documentos em relação a um conjunto de categorias predefinidas. É uma técnica para atribuir automaticamente um documento textual a um ou mais conjuntos (Rizzi et al., 2000). A primeira etapa do processo consiste em definir o conjunto de dados e as categorias. Em seguida, os documentos passam pelo processo de preparação no qual o texto é uniformizado. O próximo passo é a seleção de características que identificam as palavras que melhor representam as classes. Essas palavras são escolhidas para compor um vetor de entrada (vetor de características) para o agente classificador. 2.1 Conjunto de Dados A definição de um bom conjunto de dados, com mensagens representativas das categorias definidas, é de grande importância para o sucesso na classificação. Devido à existência de diversos tipos de mensagens legítimas e spams, é importante definir um conjunto de dados que contemple satisfatoriamente todos os tipos. Neste trabalho utiliza-se um corpus de mensagens criado a partir de um dos subdomínios do CEFET-MG. O conjunto foi compilado de mensagens pessoais de todos os usuários do subdomínio, cada qual com um diferente grau de exposição na rede e perfil de utilização do e-mail, junto com os spams recebidos nos mesmos endereços eletrônicos. As mensagens estão em seu formato original, sem remoção de tags HTML, anexos ou conteúdo. Isso é essencial para a proposta deste trabalho em utilizar todo o conteúdo da mensagem. Este conjunto representa um típico servidor de e-mail no Brasil, que recebe mensagens legítimas e spams em português e também em inglês. O conjunto é composto por 12.687 mensagens, sendo 8.867 legítimas e 4.020 spams. 2.2 Preparação das Mensagens A preparação das mensagens visa uniformizar do conteúdo das mensagens, transformando as informações complexas presentes em cada mensagem, em informações mais simples, permitindo um melhor desempenho na classificação. Neste processo, todos os e-mails do conjunto devem ser analisados. Várias técnicas de preparação de textos podem ser empregadas, entre elas a remoção de stopwords, a remoção de caracteres inválidos, a identificação de termos compostos e a técnica de stemming. Nesta pesquisa emprega-se o método proposto por Carpinteiro et al. (2006), no qual: todos os caracteres são convertidos em minúsculos; imagens, anexos, links, endereços eletrônicos, moeda, porcentagem e palavras longas são substituídos por strings específicos; os acentos são removidos; tags HTML são tratadas, algumas utilizadas integralmente, outras parcialmente e algumas descartadas; palavras pequenas são descartadas. 2.3 Seleção de Características Em um conjunto de dados uma característica é uma palavra e o espaço característico é no número total de palavras contidas nas mensagens, que podem ser dezenas ou milhares, variando de acordo com a quantidade de documentos e informações contidas nestes. No conjunto de mensagens do CEFET-MG o espaço característico é de 91.419 palavras. A seleção de características consiste na utilização de métodos estatísticos na extração das informações mais relevantes de um conjunto de dados, identificando as palavras que melhor representam uma categoria - é um método utilizado para reduzir a dimensionalidade do espaço

característico. É recomendável que essa redução seja realizada de forma automática e, principalmente sem sacrificar a precisão na classificação dos documentos. Diferentes algoritmos podem ser empregados para realizar a extração das características mais relevantes. Neste trabalho são empregados os métodos Informação Mútua (MI), χ 2 statistic (QUI) e três variações do Distribuição por Frequência (DF ). 2.4 Informação Mútua - Mutual Information (MI) Informação Mútua é um método estatístico amplamente utilizado em categorização de textos para redução de dimensionalidade (Chuan et al., 2005). Sua escolha para emprego neste trabalho se deu pela sua ampla utilização no processo de redução de dimensionalidade, bem como por seu bom desempenho nos trabalhos de Carpinteiro et al. (2006), Assis (2006), Chuan et al. (2005), Ozgur et al. (2004) e Androutsopoulos et al. (2000). Sendo w uma característica, o MI de w é dado pela Equação 1: MI(w) = w {0,1},c {legitimo,spam} P (W = w, C = c). log P (W = w, C = c) P (W = w).p (C = c) (1) onde c = classe(legitimo, spam), P (W = w, C = c) é a probabilidade que a palavra w ocorra (w = 1) ou não ocorra (w = 0) em spam (c = spam) ou legítimo (c = legitimo), P (W = w) é a probabilidade que a palavra w ocorra ou não em todos os e-mails e, P (C = c) é a probabilidade de um e-mail ser ou não spam. As palavras com valores mais altos de MI são selecionadas. 2.5 χ 2 statistic (QUI) O QUI mede a independência entre t e C, onde t é um elemento e C um conjunto (Yang and Pedersen, 1997). A distribuição QUI para uma característica w e uma classe c é dada pela Equação 2: QUI(w, c) = N.(Kn ml) 2 (k + m).(l + n).(k + l)(m + n) (2) onde k é o número de e-mails, dentro da classe c, que contém a característica w. l é o número de e-mails, dentro da classe c, que contém a característica w. m é o número de e-mails, dentro da classe c que não contém a característica w. n é o número de e-mails, dentro da classe c que não contém a característica w, e N é o número total de e-mails dentro da classe c. A distribuição QUI de uma característica t dentro de um conjunto C com duas classes (legitimo, spam) é dada pela Equação 3: QU I(t) = P (spam).qu I(t, spam) + P (legitimo).qu I(t, legitimo) (3) onde P (spam) e P (legitimo) são as probabilidades da ocorrência de e-mails spam e legítimos respectivamente. As características com os valores mais altos de QU I são escolhidas. Cada característica é uma entrada para o agente classificador. A escolha desse método se deu pelos resultados apresentados nos experimento de Assis (2006), Meyer and Whateley (2004) e Yang and Pedersen (1997).

2.6 Distribuição por Frequência - Document Frequency (DF) É uma das técnicas mais simples para redução da dimensionalidade. Possui uma complexidade computacional aproximadamente linear, o que possibilita seu uso em grandes conjuntos de dados a um custo computacional relativamente pequeno. A distribuição por frequência é definida pelo número de ocorrência de um termo em um conjunto de elementos (Yang and Pedersen, 1997). O cálculo do DF de uma palavra se dá por meio da Equação 4: DF = N[x legitima, spam] T onde N é o número de ocorrência da palavra x na classe (legítima ou spam) e T, o número total de palavras na classe. Para representar as classes são escolhidas as palavras com valores de DF mais altos, considerando-se que as palavras com baixa freqüência de ocorrência são menos significativas para identificação das classes. Nessa técnica a palavra possui um valor de DF para cada uma das classes. Nesse caso específico, um DF para o conjunto de mensagens legítimas e outro para o conjunto de spams. Silva (2008) propôs a variação na forma de cálculo do DF unificado da palavra (DF Legítimo e DF Spam), com o objetivo de encontrar as características que melhor definam cada uma das classes e, consequentemente melhorar o desempenho na classificação. A seguir são apresentadas essas variações: DF Soma (DF +): O cálculo comumente utilizado pela comunidade científica para encontrar o DF de uma palavra é somar o DF da palavra em cada uma das classes, como pode ser visto na Equação 5. As palavras com valores de DF mais altos são selecionadas para compor o vetor de características. Esse método foi empregado no trabalho de Carpinteiro et al. (2006). (4) DF + = DF Legitimo + DF Spam (5) DF Exclusão de Termos Comuns (DF ET C): Algumas palavras possuem um elevado número de ocorrência nas duas classes e consequentemente um alto valor de DF em ambas. Baseado no princípio de que se uma palavra possui alta representatividade em duas classes distintas, não será uma boa representante para uma classe específica. Diante dessa premissa, este método busca excluir as palavras com elevado valor de DF que estão presentes nas duas classes. Selecionando somente, as palavras que possuem elevado DF em apenas uma delas. DF Subtração (DF ): Nesta técnica são selecionadas as palavras que possuem a maior diferença entre o seu valor de DF nas duas classes. O DF é obtido através do módulo (valor absoluto) da subtração entres os valores de DF da palavra nas duas classes. Após o cálculo descrito na Equação 6, as palavras com maior DF são selecionadas para compor o vetor de características. DF = DF Legitimo DF Spam (6)

2.7 Vetor Característico O vetor característico é criado a partir da seleção das n características mais relevantes de acordo com o método de seleção de características empregado. Para os experimentos foram gerados vetores com 25 e 50 características para os métodos de extração de características supracitados. Cada característica corresponde a um nó de entrada da Rede Neural, no qual cada mensagem é representada por um vetor X = (x 1, x 2,..., x n ), onde n é o número de carac-terísticas. Para compor o vetor característico foi empregado o método do peso binário. Nesse método, o vetor é composto por 1 se a palavra aparece ao menos uma vez no e-mail e 0 caso não apareça. 3. Redes Neurais Artificiais As RNA são modelos matemáticos que se assemelham às estruturas neurais biológicas e que têm capacidade computacional adquirida por meio de aprendizagem e generalização (Braga et al., 2000). Esses modelos almejam semelhança com o sistema nervoso dos seres vivos e a com sua capacidade de processar informações. Trata-se de uma metáfora da maneira como o cérebro humano processa as informações utilizadas em computação. A capacidade de aprender com exemplos, robustez, velocidade de processamento, generalização e adaptabilidade, possibilita a utilização das Redes Neurais na solução de uma grande variedade de problemas, entre eles, problemas de classificação, otimização, categorização, aproximação, análise de sinais ou imagens e predição (Braga et al., 2000). Os problemas de categorização e classificação envolvem a descoberta de características estatisticamente relevantes de um determinado conjunto de dados, e como estes, podem ser divididos em classes. Nesses casos, somente os dados de entrada são conhecidos, cabendo à rede encontrar as classes presentes nesse conjunto de dados. Por todas as suas características e pelo sucesso de sua utilização na categorização de informação, as Redes Neurais Artificiais podem ser utilizadas para detecção de spam em mensagens de correio eletrônico. 3.1 Redes Neurais Self-Organizing Maps (SOM) As redes SOM (Self-Organizing Maps - Mapa Auto-Organizável) foram desenvolvidas por Teuvo Kohonem na década de 1980. Haykin (2001) caracteriza um mapa auto-organizável pela formação de um mapa topográfico dos padrões de entrada, no qual as localizações espaciais (coordenadas) dos neurônios na grade são indicativas das características estatísticas intrínsecas contidas nos padrões de entrada, daí o nome mapa auto-organizável. Essa classe de RNA utiliza o princípio do treinamento não-supervisionado e se baseia no algoritmo de aprendizagem competitiva, em que os neurônios competem entre si para se tornarem ativos. Assim, apenas um neurônio de saída ou grupo de neurônios vizinhos fornece uma resposta ativa. Essa competição é chamada de Winner-Takes-All (WTA) - o vencedor leva tudo e tem como base uma função onde o nível de ativação indica a similaridade entre o vetor de pesos do neurônio e o vetor de entrada. Para medir o grau de similaridade entre o vetor de pesos do neurônio e o vetor de entrada da rede, pode-se usar a distância euclidiana ou a distância de Manhattan. Uma vez que a distância entre o vetor de pesos de um determinado neurônio e o vetor de entrada é mínima para todos os neurônios da rede, esse neurônio e um conjunto pré-definido de neurônios vizinhos terão seus pesos atualizados. A maneira como os pesos do neurônio vencedor e de seus vizinhos são atualizados é ilustrado na Equação 7 (Braga et al., 2000):

w ji (t + 1) = { w ji(t) + η(t)(x i (t) w ji (t0), se jɛλ(t) w ji (t), caso contrario (7) onde w ji (t) é o peso da conexão entre o elemento de entrada x t e o neurônio j, η(t) é a taxa de aprendizado e Λ é a vizinhança do neurônio vencedor em um instante de tempo t. A vizinhança de cada neurônio pode ser definida de acordo com a forma geométrica usada para representar os neurônios da rede. As três representações utilizadas são na forma de um array retangular, hexagonal ou em um padrão randômico. Esses padrões são definidos respectivamente pelas funções Gridtop, Hextop e Randtop, do Matlab. O algoritmo de treinamento para as redes SOM pode ser resumido da seguinte maneira: inicializar pesos e parâmetros; para cada padrão de treinamento é definido o neurônio vencedor, seus pesos e de seus vizinhos são atualizados, se o número de ciclo for múltiplo de N, a taxa de aprendizado é reduzida e também a área de vizinhança. Esse processo ocorre até que o ajuste dos pesos não seja mais significativo e o mapa de características pare de mudar (Braga et al., 2000). O treinamento da rede SOM ocorre em duas fases: na primeira ocorre o treinamento da rede para organizar os dados, de forma que os mais parecidos fiquem próximos de si. Para isso, quando um padrão de entrada p é apresentado, a rede procura a unidade mais parecida com p e assim, constrói um mapa topológico, em que os nós topologicamente próximos respondem de forma semelhante a padrões de entrada semelhantes. A segunda fase é a de classificação, em que a rede SOM utiliza o mapa organizado para identificar a classe mais próxima à entrada. No final desse processo, cada neurônio ou conjunto de neurônios vizinhos representa um padrão distinto dentro do universo de padrões de entrada da rede. 4. Experimentos e Medidas de Desempenho Os casos de testes foram gerados para os vetores de entrada com 25 e 50 características e as três topologias (Gridtop, Hextop e Randtop). Cada uma dessas configurações de rede foi implementada para os cinco métodos de extração de características. Na criação da rede foram definidas duas categorias, legítima e spam. O conjunto de dados foi distribuído da seguinte forma: 60% para treinamento, 20% para teste e 20% para validação (Demuth et al., 2008). Foram avaliados os resultados obtidos no conjunto de validação. Os experimentos foram executados 30 vezes, considerando nas avaliações as suas médias e o melhor resultado. Para avaliar o desempenho do sistema será utilizado o Erro (Err), a taxa de falso positivo (F P R) e a taxa de verdadeiro positivo (T P R). As letras L e S foram usadas para e-mails legítimos e spam respectivamente, n L e n S como o número total de mensagens legítimas e spams, n L L e n S S como o total de mensagens legítimas e spams classificados corretamente. O erro (Err) indica a proporção de classificações incorretas e é dado pela Equação 8: Err = n S L + n L S n S + n L (8) A taxa de verdadeiro positivo (TP Rate - T P R) pode ser definido pela quantidade de spams classificados corretamente dividido pelo total spams. Assim sendo, define-se o T P R pela Equação 9. O FP Rate (F P R) é o falso positivo, ele pode ser definido pelo número de mensagens legítimas classificadas incorretamente como spams. O F P R é dado pela Equação 10:

T P R = n S S n S (9) F P R = n L S n L (10) 5. Resultados Os melhores resultados alcançados nos experimentos são apresentados na Figura 1 por meio do percentual de erro na classificação de spams e mensagens legítimas. Esses são representados pela média dos resultados nas 30 execuções dos experimentos e também pelo melhor resultado obtido. Figure 1: Resultado dos experimentos O melhor resultado nos experimentos com 25 elementos de entrada foi obtido empregando o método DF ET C e a topologia Randtop com 0,25% de erro na classificação. Nesse experimento todas as mensagens legítimas foram corretamente classificadas (taxa de falso positivo igual a zero). A taxa de verdadeiro positivo foi de 99,27%. A melhor média foi obtida pelo método DF com a topologia Hextop. O menor erro médio foi de 4,73%, a taxa de falso positivo de 6,44% e a de verdadeiro positivo de 98,60%. Nos experimentos com 50 elementos de entrada o melhor resultado e a melhor média foram obtidos utilizando o método MI e a topologia Gridtop. No melhor resultado o erro foi de 5,17%, a taxa de falso positivo de 7,13% e a de verdadeiro positivo de 98,68%. Na média dos experimentos a taxa de classificações incorretas foi de 5,32%, a de falso positivo de 7,35% e a de verdadeiro positivo de 98,68%. Os resultados obtidos são bastante promissores, principalmente em função da utilização de métodos de seleção de características simples e com baixo custo computacional. O melhor resultado alcançado nos experimentos foi de 99,75% de acerto na classificação. Nesse experimento todas as mensagens legítimas foram corretamente classificadas e dos 804 spams 797 foram corretamente classificadas. Para entender melhor o bom desempenho dos resultados, estes foram comparados com os obtidos em recentes pesquisas. Em Andrade (2006), as redes neurais MLP obtiveram 94% de acerto e o sistema Neuro-Fuzzy 88%. No trabalho de Chuan et al. (2005), as redes MLP obtiveram 91,26% de acerto, as redes LVQ 93,58% enquanto o método Naive Bayesian 86,48%.

6. Conclusão Este trabalho utiliza as Redes Neurais SOM para detecção de spams. A rede foi treinada e testada no corpus de mensagens criado a partir de um dos subdomínios do CEFET-MG. As mensagens passaram por um pré-processamento com o objetivo de uniformizar as informações, ou seja, torná-las mais simples e eliminar informações desnecessárias. Foram empregados os métodos MI, QUI e três variações do método DF para extrair as informações mais relevantes dos conjuntos de mensagens. O vetor de entrada da rede foi composto pelo o uso da indexação binária. Os resultados dos experimentos se mostraram satisfatórios com alto percentual de classificações corretas, mostrando a capacidade da rede SOM de generalizar em diferentes padrões de e-mails legítimos e spams. A implementação das variações no cálculo do DF se mostrou bastante satisfatória. O DF e o DF ET C apresentaram resultados superiores aos do DF +, que é o método comumente empregado pela comunidade científica. Em continuação a esta pesquisa, novos métodos de seleção de características, arquiteturas de redes neurais e algoritmos de treinamento estão sendo testados. Para os novos experimentos, também está sendo analisado um método de regressão linear múltipla, a fim de reduzir a dimensionalidade do vetor de entrada da rede. References Andrade, L. M., 2006. Análise comparativa de técnicas de inteligência computacional para a detecção de spam. Master s thesis, UFMG - Programa de Pós-Graduação em Engenharia Elétrica. Androutsopoulos, I., Koutsias, J., Konstantinos, C., & Spyropoulos, C., 2000. An experimental comparison of naive bayesian and keyword-based anti-spam filtering with personal e-mail messages. In SIGIR 00: Proceedings of the 23rd annual international ACM SIGIR conference on Research and development in information retrieval, pp. 160 167, New York, NY, USA. ACM. AntiSpam.br, 2009. Antispam.br - comite gestor da internet no brasil - cgi.br. Disponível em http://www.antispam.br. Acesso em 20 abr. 2009. Assis, J. M. C., 2006. Detecção de e-mails spam utilizando redes neurais artificiais. Master s thesis, Universidade Federal de Itajubá - Programa de Pós-Graduação em Engenharia Elétrica. Braga, A. P., Carvalho, A. C., & Ludermir, T. B., 2000. Redes Neurais Artificiais. LTC, Rio de Janeiro, 1 a edition. Carpinteiro, O. A. S., Lima, I., J. M. C. Assis, A. C. Z. S., Moreira, E. M., & Pinheiro, C. A. M., 2006. A neural model in anti-spam systems. In Proceedings of 16th International Conference on Artificial Neural Networks (ICANN 2006), volume 4132 of Lecture Notes in Computer Science, pp. 847 855, Athens, Greece. Springer. Chuan, Z., Xianliang, L., Mengshu, H., & Xu, Z., 2005. A lvq-based neural network anti-spam e-mail approach. In SIGOPS Operating Systems Review, volume 39, pp. 34 39, New York, NY, USA. ACM. Cormack, G. & Lynam, T., 2005. Spam corpus creation for trec. In Proceedings of the Second Conference on Email and Anti-Spam, Mountain View, CA, USA. CEAS. Cranor, L. F. & LaMacchia, B. A., 1998. Spam! In Commun. ACM, volume 41, pp. 74 83, New York, NY, USA. ACM. Demuth, H., Beale, M., & Hagan, M., 2008. Neural Network Toolbox 6. The MathWorks, Natic, MA, USA.

Haykin, S., 2001. Redes Neurais. Bookman, Porto Alegre, RS, Brasil, 2 a edition. Meyer, T. A. & Whateley, B., 2004. Spambayes: Effective open-source, bayesian based, e- mail classification systems. In Proceedings of the First Conference on Email and Anti-Spam, Mountain View, CA, USA. CEAS. Ozgur, L., Gungor, T., & Gurgen, F., 2004. Adaptive anti-spam filtering for agglutinative languages: a special case for turkish. Pattern Recognition Letters, vol. 25, n. 16, pp. 1819 1831. Rizzi, C. B., Wives, L. K., de Oliveira, J. P. M., & Engel, P. M., 2000. Fazendo uso da categorização de textos em atividades empresariais. In Proceedings of the International Symposium on Knowledge Management/Document Management, Curitiba, PR, Brasil. PUC-PR. WEB, A., 2003. Pesquisa detecta preferência do e-mail na comunicação corporativa. Site: Agência Web. Yang, Y. & Pedersen, J. O., 1997. A comparative study on feature selection in text categorization. In ICML 97: Proceedings of the Fourteenth International Conference on Machine Learning, pp. 412 420, San Francisco, CA, USA. Morgan Kaufmann Publishers Inc. 7. Direitos Autorais Os autores são os únicos responsáveis pelo conteúdo do material impresso incluído no seu trabalho.