30.510-000, Belo Horizonte, MG, Brasil alisson@lsi.cefetmg.br, gray@dppg.cefetmg.br,pema@dri.cefetmg.br

26 a 28 de maio de 2010 Universidade Federal de São João del-rei MG Associação Brasileira de Métodos Computacionais em Engenharia DETECÇÃO DE SPAM UTILIZANDO REDES NEURAIS ARTIFICIAIS SOM Alisson Marques da Silva 1 ; Gray Farias Moita 1 ; Paulo E. M. Almeida 1 1 CEFET-MG - Laboratório de Sistemas Inteligentes, Av. Amazonas, 7675, Nova Gameleira 30.510-000, Belo Horizonte, MG, Brasil alisson@lsi.cefetmg.br, gray@dppg.cefetmg.br,pema@dri.cefetmg.br Resumo. Este trabalho apresenta um modelo neural de filtro anti-spam. Neste, os e-mails passam por um pré-processamento, que transforma as informações complexas, presentes em cada mensagem em informações mais simples, permitindo um melhor desempenho na classificação. Os métodos de seleção de características são empregados para reduzir a dimensionalidade das informações presentes em cada mensagem e as redes neurais Self-Organizing Maps (SOM) como agente classificador. O objetivo fundamental desta pesquisa é apresentar as Redes SOM, os métodos de extração de características Informação Mútua, χ 2 statistic (QUI), e variações do método Distribuição por Frequência. Bons resultados foram obtidos e são apresentados e avaliados no presente trabalho. Palavras-chave: E-mail, Spam, Redes Neurais Artificiais, SOM.

1. Introdução Cada vez mais presente na vida das pessoas, a internet revoluciona a maneira de se obter informações, de se fazer negócios e, até mesmo, a de se relacionar. Vários serviços são disponibilizados pela internet, entre eles o email ou correio eletrônico, que pode ser definido como uma forma de criar, enviar e receber mensagens por intermédio de sistemas eletrônicos. O e-mail tornou-se um dos mais importantes meios de comunicação e deixou de ser um simples meio de troca de mensagens para se tornar um grande fator de produtividade nas empresas, onde é cada vez mais utilizado como veículo oficial de comunicação. Segundo pesquisa realizada pela Meta Group WEB (2003), 80% dos usuários comerciais preferem o e-mail ao telefone, pois oferece, entre outras vantagens, a rapidez na comunicação, a possibilidade de se contactar várias pessoas simultaneamente e de gerar um registro dessa comunicação. A popularização do correio eletrônico fez com que esse serviço se tornasse bastante utilizado para envio de spam - termo utilizado para denominar o e-mail não solicitado, emitido de forma indiscriminada, direta ou indiretamente, por um remetente que não tem nenhum relacionamento com o destinatário (Cormack and Lynam, 2005). Os principais fatores que contribuem para o crescimento do número de spam são a facilidade de enviá-lo para um grande número de destinatários e de se obter endereços de e-mails válidos, além do baixo custo de envio (Cranor and LaMacchia, 1998). Desde 1994, quando surgiu o primeiro spam, a prática de enviar e-mails não solicitados tem sido aplicada com objetivos diversos, utilizando para isso diferentes aplicativos e meios de propagação na rede. O spam tem evoluído, acompanhando o desenvolvimento da internet, de novas aplicações e tecnologias. Atualmente, está associado não somente ao envio de mensagens publicitárias, mas também a ataques à segurança da internet e do usuário, propagando vírus e golpes (AntiSpam.br, 2009). Tão preocupante quanto o aumento descontrolado do volume de spam na rede são a sua natureza e os seus objetivos. O spam pode causar prejuízos aos usuários e às empresas, como: não recebimento de e- mails legítimos, perda de produtividade, acesso a conteúdo impróprio ou ofensivo, prejuízos financeiros causados por fraude, impacto no link de conexão com a internet, má utilização dos servidores, inclusão em listas de bloqueio, investimento em pessoal e equipamentos (Anti- Spam.br, 2009). O desenvolvimento de mecanismos de prevenção, detecção e proteção dos correios eletrônicos tornou-se imprescindível para o combate ao spam. Vários métodos para identificar e classificar os spams foram propostos, entre eles: listas de bloqueio, greylisting e filtros de conteúdos com diferentes técnicas, porém segundo Ozgur et al. (2004) nenhum deles é completamente satisfatório. Este trabalho avalia e compara os métodos de seleção de características Informação Mútua (MI), χ 2 statistic (QUI), três variações do método de Distribuição por Frequência (DF ) e as Redes Self-Organizing Maps (SOM) empregados na classificação de e-mails em legítimos e spams. Este artigo está organizado da seguinte forma: a Seção 2 apresenta uma introdução à categorização de textos, destacando as principais etapas do processo e os métodos de seleção de características; na Seção 3 são apresentadas às Redes Neurais com ênfase nas SOM; a Seção 4 constitui-se do relato dos experimentos executados e as medidas de desempenho utilizadas; na Seção 5 os resultados alcançados são apresentados; e por fim, na Seção 6 são descritas as principais conclusões obtidas com os experimentos.

2. Categorização de Textos A categorização de texto é uma técnica usada, principalmente, para descoberta do conhecimento, cujo objetivo é classificar documentos em relação a um conjunto de categorias predefinidas. É uma técnica para atribuir automaticamente um documento textual a um ou mais conjuntos (Rizzi et al., 2000). A primeira etapa do processo consiste em definir o conjunto de dados e as categorias. Em seguida, os documentos passam pelo processo de preparação no qual o texto é uniformizado. O próximo passo é a seleção de características que identificam as palavras que melhor representam as classes. Essas palavras são escolhidas para compor um vetor de entrada (vetor de características) para o agente classificador. 2.1 Conjunto de Dados A definição de um bom conjunto de dados, com mensagens representativas das categorias definidas, é de grande importância para o sucesso na classificação. Devido à existência de diversos tipos de mensagens legítimas e spams, é importante definir um conjunto de dados que contemple satisfatoriamente todos os tipos. Neste trabalho utiliza-se um corpus de mensagens criado a partir de um dos subdomínios do CEFET-MG. O conjunto foi compilado de mensagens pessoais de todos os usuários do subdomínio, cada qual com um diferente grau de exposição na rede e perfil de utilização do e-mail, junto com os spams recebidos nos mesmos endereços eletrônicos. As mensagens estão em seu formato original, sem remoção de tags HTML, anexos ou conteúdo. Isso é essencial para a proposta deste trabalho em utilizar todo o conteúdo da mensagem. Este conjunto representa um típico servidor de e-mail no Brasil, que recebe mensagens legítimas e spams em português e também em inglês. O conjunto é composto por 12.687 mensagens, sendo 8.867 legítimas e 4.020 spams. 2.2 Preparação das Mensagens A preparação das mensagens visa uniformizar do conteúdo das mensagens, transformando as informações complexas presentes em cada mensagem, em informações mais simples, permitindo um melhor desempenho na classificação. Neste processo, todos os e-mails do conjunto devem ser analisados. Várias técnicas de preparação de textos podem ser empregadas, entre elas a remoção de stopwords, a remoção de caracteres inválidos, a identificação de termos compostos e a técnica de stemming. Nesta pesquisa emprega-se o método proposto por Carpinteiro et al. (2006), no qual: todos os caracteres são convertidos em minúsculos; imagens, anexos, links, endereços eletrônicos, moeda, porcentagem e palavras longas são substituídos por strings específicos; os acentos são removidos; tags HTML são tratadas, algumas utilizadas integralmente, outras parcialmente e algumas descartadas; palavras pequenas são descartadas. 2.3 Seleção de Características Em um conjunto de dados uma característica é uma palavra e o espaço característico é no número total de palavras contidas nas mensagens, que podem ser dezenas ou milhares, variando de acordo com a quantidade de documentos e informações contidas nestes. No conjunto de mensagens do CEFET-MG o espaço característico é de 91.419 palavras. A seleção de características consiste na utilização de métodos estatísticos na extração das informações mais relevantes de um conjunto de dados, identificando as palavras que melhor representam uma categoria - é um método utilizado para reduzir a dimensionalidade do espaço

característico. É recomendável que essa redução seja realizada de forma automática e, principalmente sem sacrificar a precisão na classificação dos documentos. Diferentes algoritmos podem ser empregados para realizar a extração das características mais relevantes. Neste trabalho são empregados os métodos Informação Mútua (MI), χ 2 statistic (QUI) e três variações do Distribuição por Frequência (DF ). 2.4 Informação Mútua - Mutual Information (MI) Informação Mútua é um método estatístico amplamente utilizado em categorização de textos para redução de dimensionalidade (Chuan et al., 2005). Sua escolha para emprego neste trabalho se deu pela sua ampla utilização no processo de redução de dimensionalidade, bem como por seu bom desempenho nos trabalhos de Carpinteiro et al. (2006), Assis (2006), Chuan et al. (2005), Ozgur et al. (2004) e Androutsopoulos et al. (2000). Sendo w uma característica, o MI de w é dado pela Equação 1: MI(w) = w {0,1},c {legitimo,spam} P (W = w, C = c). log P (W = w, C = c) P (W = w).p (C = c) (1) onde c = classe(legitimo, spam), P (W = w, C = c) é a probabilidade que a palavra w ocorra (w = 1) ou não ocorra (w = 0) em spam (c = spam) ou legítimo (c = legitimo), P (W = w) é a probabilidade que a palavra w ocorra ou não em todos os e-mails e, P (C = c) é a probabilidade de um e-mail ser ou não spam. As palavras com valores mais altos de MI são selecionadas. 2.5 χ 2 statistic (QUI) O QUI mede a independência entre t e C, onde t é um elemento e C um conjunto (Yang and Pedersen, 1997). A distribuição QUI para uma característica w e uma classe c é dada pela Equação 2: QUI(w, c) = N.(Kn ml) 2 (k + m).(l + n).(k + l)(m + n) (2) onde k é o número de e-mails, dentro da classe c, que contém a característica w. l é o número de e-mails, dentro da classe c, que contém a característica w. m é o número de e-mails, dentro da classe c que não contém a característica w. n é o número de e-mails, dentro da classe c que não contém a característica w, e N é o número total de e-mails dentro da classe c. A distribuição QUI de uma característica t dentro de um conjunto C com duas classes (legitimo, spam) é dada pela Equação 3: QU I(t) = P (spam).qu I(t, spam) + P (legitimo).qu I(t, legitimo) (3) onde P (spam) e P (legitimo) são as probabilidades da ocorrência de e-mails spam e legítimos respectivamente. As características com os valores mais altos de QU I são escolhidas. Cada característica é uma entrada para o agente classificador. A escolha desse método se deu pelos resultados apresentados nos experimento de Assis (2006), Meyer and Whateley (2004) e Yang and Pedersen (1997).

2.6 Distribuição por Frequência - Document Frequency (DF) É uma das técnicas mais simples para redução da dimensionalidade. Possui uma complexidade computacional aproximadamente linear, o que possibilita seu uso em grandes conjuntos de dados a um custo computacional relativamente pequeno. A distribuição por frequência é definida pelo número de ocorrência de um termo em um conjunto de elementos (Yang and Pedersen, 1997). O cálculo do DF de uma palavra se dá por meio da Equação 4: DF = N[x legitima, spam] T onde N é o número de ocorrência da palavra x na classe (legítima ou spam) e T, o número total de palavras na classe. Para representar as classes são escolhidas as palavras com valores de DF mais altos, considerando-se que as palavras com baixa freqüência de ocorrência são menos significativas para identificação das classes. Nessa técnica a palavra possui um valor de DF para cada uma das classes. Nesse caso específico, um DF para o conjunto de mensagens legítimas e outro para o conjunto de spams. Silva (2008) propôs a variação na forma de cálculo do DF unificado da palavra (DF Legítimo e DF Spam), com o objetivo de encontrar as características que melhor definam cada uma das classes e, consequentemente melhorar o desempenho na classificação. A seguir são apresentadas essas variações: DF Soma (DF +): O cálculo comumente utilizado pela comunidade científica para encontrar o DF de uma palavra é somar o DF da palavra em cada uma das classes, como pode ser visto na Equação 5. As palavras com valores de DF mais altos são selecionadas para compor o vetor de características. Esse método foi empregado no trabalho de Carpinteiro et al. (2006). (4) DF + = DF Legitimo + DF Spam (5) DF Exclusão de Termos Comuns (DF ET C): Algumas palavras possuem um elevado número de ocorrência nas duas classes e consequentemente um alto valor de DF em ambas. Baseado no princípio de que se uma palavra possui alta representatividade em duas classes distintas, não será uma boa representante para uma classe específica. Diante dessa premissa, este método busca excluir as palavras com elevado valor de DF que estão presentes nas duas classes. Selecionando somente, as palavras que possuem elevado DF em apenas uma delas. DF Subtração (DF ): Nesta técnica são selecionadas as palavras que possuem a maior diferença entre o seu valor de DF nas duas classes. O DF é obtido através do módulo (valor absoluto) da subtração entres os valores de DF da palavra nas duas classes. Após o cálculo descrito na Equação 6, as palavras com maior DF são selecionadas para compor o vetor de características. DF = DF Legitimo DF Spam (6)

2.7 Vetor Característico O vetor característico é criado a partir da seleção das n características mais relevantes de acordo com o método de seleção de características empregado. Para os experimentos foram gerados vetores com 25 e 50 características para os métodos de extração de características supracitados. Cada característica corresponde a um nó de entrada da Rede Neural, no qual cada mensagem é representada por um vetor X = (x 1, x 2,..., x n ), onde n é o número de carac-terísticas. Para compor o vetor característico foi empregado o método do peso binário. Nesse método, o vetor é composto por 1 se a palavra aparece ao menos uma vez no e-mail e 0 caso não apareça. 3. Redes Neurais Artificiais As RNA são modelos matemáticos que se assemelham às estruturas neurais biológicas e que têm capacidade computacional adquirida por meio de aprendizagem e generalização (Braga et al., 2000). Esses modelos almejam semelhança com o sistema nervoso dos seres vivos e a com sua capacidade de processar informações. Trata-se de uma metáfora da maneira como o cérebro humano processa as informações utilizadas em computação. A capacidade de aprender com exemplos, robustez, velocidade de processamento, generalização e adaptabilidade, possibilita a utilização das Redes Neurais na solução de uma grande variedade de problemas, entre eles, problemas de classificação, otimização, categorização, aproximação, análise de sinais ou imagens e predição (Braga et al., 2000). Os problemas de categorização e classificação envolvem a descoberta de características estatisticamente relevantes de um determinado conjunto de dados, e como estes, podem ser divididos em classes. Nesses casos, somente os dados de entrada são conhecidos, cabendo à rede encontrar as classes presentes nesse conjunto de dados. Por todas as suas características e pelo sucesso de sua utilização na categorização de informação, as Redes Neurais Artificiais podem ser utilizadas para detecção de spam em mensagens de correio eletrônico. 3.1 Redes Neurais Self-Organizing Maps (SOM) As redes SOM (Self-Organizing Maps - Mapa Auto-Organizável) foram desenvolvidas por Teuvo Kohonem na década de 1980. Haykin (2001) caracteriza um mapa auto-organizável pela formação de um mapa topográfico dos padrões de entrada, no qual as localizações espaciais (coordenadas) dos neurônios na grade são indicativas das características estatísticas intrínsecas contidas nos padrões de entrada, daí o nome mapa auto-organizável. Essa classe de RNA utiliza o princípio do treinamento não-supervisionado e se baseia no algoritmo de aprendizagem competitiva, em que os neurônios competem entre si para se tornarem ativos. Assim, apenas um neurônio de saída ou grupo de neurônios vizinhos fornece uma resposta ativa. Essa competição é chamada de Winner-Takes-All (WTA) - o vencedor leva tudo e tem como base uma função onde o nível de ativação indica a similaridade entre o vetor de pesos do neurônio e o vetor de entrada. Para medir o grau de similaridade entre o vetor de pesos do neurônio e o vetor de entrada da rede, pode-se usar a distância euclidiana ou a distância de Manhattan. Uma vez que a distância entre o vetor de pesos de um determinado neurônio e o vetor de entrada é mínima para todos os neurônios da rede, esse neurônio e um conjunto pré-definido de neurônios vizinhos terão seus pesos atualizados. A maneira como os pesos do neurônio vencedor e de seus vizinhos são atualizados é ilustrado na Equação 7 (Braga et al., 2000):

w ji (t + 1) = { w ji(t) + η(t)(x i (t) w ji (t0), se jɛλ(t) w ji (t), caso contrario (7) onde w ji (t) é o peso da conexão entre o elemento de entrada x t e o neurônio j, η(t) é a taxa de aprendizado e Λ é a vizinhança do neurônio vencedor em um instante de tempo t. A vizinhança de cada neurônio pode ser definida de acordo com a forma geométrica usada para representar os neurônios da rede. As três representações utilizadas são na forma de um array retangular, hexagonal ou em um padrão randômico. Esses padrões são definidos respectivamente pelas funções Gridtop, Hextop e Randtop, do Matlab. O algoritmo de treinamento para as redes SOM pode ser resumido da seguinte maneira: inicializar pesos e parâmetros; para cada padrão de treinamento é definido o neurônio vencedor, seus pesos e de seus vizinhos são atualizados, se o número de ciclo for múltiplo de N, a taxa de aprendizado é reduzida e também a área de vizinhança. Esse processo ocorre até que o ajuste dos pesos não seja mais significativo e o mapa de características pare de mudar (Braga et al., 2000). O treinamento da rede SOM ocorre em duas fases: na primeira ocorre o treinamento da rede para organizar os dados, de forma que os mais parecidos fiquem próximos de si. Para isso, quando um padrão de entrada p é apresentado, a rede procura a unidade mais parecida com p e assim, constrói um mapa topológico, em que os nós topologicamente próximos respondem de forma semelhante a padrões de entrada semelhantes. A segunda fase é a de classificação, em que a rede SOM utiliza o mapa organizado para identificar a classe mais próxima à entrada. No final desse processo, cada neurônio ou conjunto de neurônios vizinhos representa um padrão distinto dentro do universo de padrões de entrada da rede. 4. Experimentos e Medidas de Desempenho Os casos de testes foram gerados para os vetores de entrada com 25 e 50 características e as três topologias (Gridtop, Hextop e Randtop). Cada uma dessas configurações de rede foi implementada para os cinco métodos de extração de características. Na criação da rede foram definidas duas categorias, legítima e spam. O conjunto de dados foi distribuído da seguinte forma: 60% para treinamento, 20% para teste e 20% para validação (Demuth et al., 2008). Foram avaliados os resultados obtidos no conjunto de validação. Os experimentos foram executados 30 vezes, considerando nas avaliações as suas médias e o melhor resultado. Para avaliar o desempenho do sistema será utilizado o Erro (Err), a taxa de falso positivo (F P R) e a taxa de verdadeiro positivo (T P R). As letras L e S foram usadas para e-mails legítimos e spam respectivamente, n L e n S como o número total de mensagens legítimas e spams, n L L e n S S como o total de mensagens legítimas e spams classificados corretamente. O erro (Err) indica a proporção de classificações incorretas e é dado pela Equação 8: Err = n S L + n L S n S + n L (8) A taxa de verdadeiro positivo (TP Rate - T P R) pode ser definido pela quantidade de spams classificados corretamente dividido pelo total spams. Assim sendo, define-se o T P R pela Equação 9. O FP Rate (F P R) é o falso positivo, ele pode ser definido pelo número de mensagens legítimas classificadas incorretamente como spams. O F P R é dado pela Equação 10:

T P R = n S S n S (9) F P R = n L S n L (10) 5. Resultados Os melhores resultados alcançados nos experimentos são apresentados na Figura 1 por meio do percentual de erro na classificação de spams e mensagens legítimas. Esses são representados pela média dos resultados nas 30 execuções dos experimentos e também pelo melhor resultado obtido. Figure 1: Resultado dos experimentos O melhor resultado nos experimentos com 25 elementos de entrada foi obtido empregando o método DF ET C e a topologia Randtop com 0,25% de erro na classificação. Nesse experimento todas as mensagens legítimas foram corretamente classificadas (taxa de falso positivo igual a zero). A taxa de verdadeiro positivo foi de 99,27%. A melhor média foi obtida pelo método DF com a topologia Hextop. O menor erro médio foi de 4,73%, a taxa de falso positivo de 6,44% e a de verdadeiro positivo de 98,60%. Nos experimentos com 50 elementos de entrada o melhor resultado e a melhor média foram obtidos utilizando o método MI e a topologia Gridtop. No melhor resultado o erro foi de 5,17%, a taxa de falso positivo de 7,13% e a de verdadeiro positivo de 98,68%. Na média dos experimentos a taxa de classificações incorretas foi de 5,32%, a de falso positivo de 7,35% e a de verdadeiro positivo de 98,68%. Os resultados obtidos são bastante promissores, principalmente em função da utilização de métodos de seleção de características simples e com baixo custo computacional. O melhor resultado alcançado nos experimentos foi de 99,75% de acerto na classificação. Nesse experimento todas as mensagens legítimas foram corretamente classificadas e dos 804 spams 797 foram corretamente classificadas. Para entender melhor o bom desempenho dos resultados, estes foram comparados com os obtidos em recentes pesquisas. Em Andrade (2006), as redes neurais MLP obtiveram 94% de acerto e o sistema Neuro-Fuzzy 88%. No trabalho de Chuan et al. (2005), as redes MLP obtiveram 91,26% de acerto, as redes LVQ 93,58% enquanto o método Naive Bayesian 86,48%.

6. Conclusão Este trabalho utiliza as Redes Neurais SOM para detecção de spams. A rede foi treinada e testada no corpus de mensagens criado a partir de um dos subdomínios do CEFET-MG. As mensagens passaram por um pré-processamento com o objetivo de uniformizar as informações, ou seja, torná-las mais simples e eliminar informações desnecessárias. Foram empregados os métodos MI, QUI e três variações do método DF para extrair as informações mais relevantes dos conjuntos de mensagens. O vetor de entrada da rede foi composto pelo o uso da indexação binária. Os resultados dos experimentos se mostraram satisfatórios com alto percentual de classificações corretas, mostrando a capacidade da rede SOM de generalizar em diferentes padrões de e-mails legítimos e spams. A implementação das variações no cálculo do DF se mostrou bastante satisfatória. O DF e o DF ET C apresentaram resultados superiores aos do DF +, que é o método comumente empregado pela comunidade científica. Em continuação a esta pesquisa, novos métodos de seleção de características, arquiteturas de redes neurais e algoritmos de treinamento estão sendo testados. Para os novos experimentos, também está sendo analisado um método de regressão linear múltipla, a fim de reduzir a dimensionalidade do vetor de entrada da rede. References Andrade, L. M., 2006. Análise comparativa de técnicas de inteligência computacional para a detecção de spam. Master s thesis, UFMG - Programa de Pós-Graduação em Engenharia Elétrica. Androutsopoulos, I., Koutsias, J., Konstantinos, C., & Spyropoulos, C., 2000. An experimental comparison of naive bayesian and keyword-based anti-spam filtering with personal e-mail messages. In SIGIR 00: Proceedings of the 23rd annual international ACM SIGIR conference on Research and development in information retrieval, pp. 160 167, New York, NY, USA. ACM. AntiSpam.br, 2009. Antispam.br - comite gestor da internet no brasil - cgi.br. Disponível em http://www.antispam.br. Acesso em 20 abr. 2009. Assis, J. M. C., 2006. Detecção de e-mails spam utilizando redes neurais artificiais. Master s thesis, Universidade Federal de Itajubá - Programa de Pós-Graduação em Engenharia Elétrica. Braga, A. P., Carvalho, A. C., & Ludermir, T. B., 2000. Redes Neurais Artificiais. LTC, Rio de Janeiro, 1 a edition. Carpinteiro, O. A. S., Lima, I., J. M. C. Assis, A. C. Z. S., Moreira, E. M., & Pinheiro, C. A. M., 2006. A neural model in anti-spam systems. In Proceedings of 16th International Conference on Artificial Neural Networks (ICANN 2006), volume 4132 of Lecture Notes in Computer Science, pp. 847 855, Athens, Greece. Springer. Chuan, Z., Xianliang, L., Mengshu, H., & Xu, Z., 2005. A lvq-based neural network anti-spam e-mail approach. In SIGOPS Operating Systems Review, volume 39, pp. 34 39, New York, NY, USA. ACM. Cormack, G. & Lynam, T., 2005. Spam corpus creation for trec. In Proceedings of the Second Conference on Email and Anti-Spam, Mountain View, CA, USA. CEAS. Cranor, L. F. & LaMacchia, B. A., 1998. Spam! In Commun. ACM, volume 41, pp. 74 83, New York, NY, USA. ACM. Demuth, H., Beale, M., & Hagan, M., 2008. Neural Network Toolbox 6. The MathWorks, Natic, MA, USA.

Haykin, S., 2001. Redes Neurais. Bookman, Porto Alegre, RS, Brasil, 2 a edition. Meyer, T. A. & Whateley, B., 2004. Spambayes: Effective open-source, bayesian based, e- mail classification systems. In Proceedings of the First Conference on Email and Anti-Spam, Mountain View, CA, USA. CEAS. Ozgur, L., Gungor, T., & Gurgen, F., 2004. Adaptive anti-spam filtering for agglutinative languages: a special case for turkish. Pattern Recognition Letters, vol. 25, n. 16, pp. 1819 1831. Rizzi, C. B., Wives, L. K., de Oliveira, J. P. M., & Engel, P. M., 2000. Fazendo uso da categorização de textos em atividades empresariais. In Proceedings of the International Symposium on Knowledge Management/Document Management, Curitiba, PR, Brasil. PUC-PR. WEB, A., 2003. Pesquisa detecta preferência do e-mail na comunicação corporativa. Site: Agência Web. Yang, Y. & Pedersen, J. O., 1997. A comparative study on feature selection in text categorization. In ICML 97: Proceedings of the Fourteenth International Conference on Machine Learning, pp. 412 420, San Francisco, CA, USA. Morgan Kaufmann Publishers Inc. 7. Direitos Autorais Os autores são os únicos responsáveis pelo conteúdo do material impresso incluído no seu trabalho.