Filtro de Conteúdo para Sistemas SMS Baseado em Classificador Bayesiano e Agrupamento por Palavras



Documentos relacionados
5.1 Seleção dos melhores regressores univariados (modelo de Índice de Difusão univariado)

3 Algoritmos propostos

TEORIA DE ERROS * ERRO é a diferença entre um valor obtido ao se medir uma grandeza e o valor real ou correto da mesma.

Sistemas Robóticos. Sumário. Introdução. Introdução. Navegação. Introdução Onde estou? Para onde vou? Como vou lá chegar?

NOTA II TABELAS E GRÁFICOS

Introdução e Organização de Dados Estatísticos

Sistemas de Filas: Aula 5. Amedeo R. Odoni 22 de outubro de 2001

CENTRO UNIVERSITÁRIO DO LESTE DE MINAS GERAIS - UnilesteMG

Nota Técnica Médias do ENEM 2009 por Escola

2 Máquinas de Vetor Suporte 2.1. Introdução

Objetivos da aula. Essa aula objetiva fornecer algumas ferramentas descritivas úteis para

PLANILHAS EXCEL/VBA PARA PROBLEMAS ENVOLVENDO EQUILÍBRIO LÍQUIDO-VAPOR EM SISTEMAS BINÁRIOS

Rastreando Algoritmos

CAPÍTULO VI Introdução ao Método de Elementos Finitos (MEF)

PARTE Apresente as equações que descrevem o comportamento do preço de venda dos imóveis.

Análise Econômica da Aplicação de Motores de Alto Rendimento

O Método de Redes Neurais com Função de Ativação de Base Radial para Classificação em Data Mining

LOCALIZAÇÃO ESPACIAL DA MÃO DO USUÁRIO UTILIZANDO WII REMOTE. Ricardo Silva Tavares 1 ; Roberto Scalco 2

Atribuição Automática de Propagandas a Páginas da Web

Regressão e Correlação Linear

CURSO ON-LINE PROFESSOR: VÍTOR MENEZES

Fast Multiresolution Image Querying

Estimativa da Incerteza de Medição da Viscosidade Cinemática pelo Método Manual em Biodiesel

Variabilidade Espacial do Teor de Água de um Argissolo sob Plantio Convencional de Feijão Irrigado

UTILIZAÇÃO DO MÉTODO DE TAGUCHI NA REDUÇÃO DOS CUSTOS DE PROJETOS. Uma equação simplificada para se determinar o lucro de uma empresa é:

Hansard OnLine. Guia Unit Fund Centre

UNIVERSIDADE DO ESTADO DA BAHIA - UNEB DEPARTAMENTO DE CIÊNCIAS EXATAS E DA TERRA COLEGIADO DO CURSO DE DESENHO INDUSTRIAL CAMPUS I - SALVADOR

Ministério da Educação. Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira. Cálculo do Conceito Preliminar de Cursos de Graduação

7. Resolução Numérica de Equações Diferenciais Ordinárias

ALGORITMO E PROGRAMAÇÃO

Modelo Analítico para Avaliar Plataformas Cliente/Servidor e Agentes Móveis Aplicado à Gerência de Redes

Análise de Regressão. Profa Alcione Miranda dos Santos Departamento de Saúde Pública UFMA

CAPÍTULO 1 Exercícios Propostos

1 Princípios da entropia e da energia

Covariância e Correlação Linear

Controlo Metrológico de Contadores de Gás

ANEXO II METODOLOGIA E CÁLCULO DO FATOR X

PREVISÃO DE PARTIDAS DE FUTEBOL USANDO MODELOS DINÂMICOS

Energia de deformação na flexão

IMPLEMENTAÇÃO DE REDES NEURAIS ARTIFICIAIS UTILIZANDO A LINGUAGEM DE PROGRAMAÇÃO JAVA

1.UNIVERSIDADE FEDERAL DE VIÇOSA, VIÇOSA, MG, BRASIL; 2.UNIVERSIDADE FEDERAL DE GOIÁS, GOIANIA, GO, BRASIL.

4 Critérios para Avaliação dos Cenários

REGRESSÃO LOGÍSTICA. Seja Y uma variável aleatória dummy definida como:

Aprendizagem de Máquina

3 A técnica de computação intensiva Bootstrap

SISTEMA HÍBRIDO NEURO-FUZZY PARA ANÁLISE DE SEGURANÇA EM TEMPO REAL DE SISTEMAS DE POTÊNCIA

Geração de poses de faces utilizando Active Appearance Model Tupã Negreiros 1, Marcos R. P. Barretto 2, Jun Okamoto 3

Camila Spinassé INTRODUÇÃO À MATEMÁTICA FINANCEIRA PARA ALUNOS NA EDUCAÇÃO DE JOVENS E ADULTOS

Elaboração: Fevereiro/2008

MODELO DE FILA HIPERCUBO COM MÚLTIPLO DESPACHO E BACKUP PARCIAL PARA ANÁLISE DE SISTEMAS DE ATENDIMENTO MÉDICO EMERGENCIAIS EM RODOVIAS

Lista de Exercícios de Recuperação do 2 Bimestre. Lista de exercícios de Recuperação de Matemática 3º E.M.

XX SNPTEE SEMINÁRIO NACIONAL DE PRODUÇÃO E TRANSMISSÃO DE ENERGIA ELÉTRICA GRUPO - IX GRUPO DE ESTUDO DE OPERAÇÃO DE SISTEMAS ELÉTRICOS - GOP

CÁLCULO DO ALUNO EQUIVALENTE PARA FINS DE ANÁLISE DE CUSTOS DE MANUTENÇÃO DAS IFES

IX CONGRESSO BRASILEIRO DE ENGENHARIA E CIÊNCIAS TÉRMICAS. 9th BRAZILIAN CONGRESS OF THERMAL ENGINEERING AND SCIENCES

MAPEAMENTO DA VARIABILIDADE ESPACIAL

CQ110 : Princípios de FQ

Metodologia IHFA - Índice de Hedge Funds ANBIMA

7 - Distribuição de Freqüências

Cálculo do Conceito ENADE

Variação ao acaso. É toda variação devida a fatores não controláveis, denominadas erro.

ESTATÍSTICA MULTIVARIADA 2º SEMESTRE 2010 / 11. EXERCÍCIOS PRÁTICOS - CADERNO 1 Revisões de Estatística

Modelos estatísticos para previsão de partidas de futebol

Revisão dos Métodos para o Aumento da Confiabilidade em Sistemas Elétricos de Distribuição

Expressão da Incerteza de Medição para a Grandeza Energia Elétrica

RAE-eletrônica ISSN: Escola de Administração de Empresas de São Paulo. Brasil

I. Introdução. inatividade. 1 Dividiremos a categoria dos jovens em dois segmentos: os jovens que estão em busca do primeiro emprego, e os jovens que

1 a Lei de Kirchhoff ou Lei dos Nós: Num nó, a soma das intensidades de correntes que chegam é igual à soma das intensidades de correntes que saem.

OTIMIZAÇÃO DO FLUXO REVERSO DE PNEUS INSERVÍVEIS ATRAVÉS DE UM MODELO DE LOCALIZAÇÃO DE FACILIDADES: UM ESTUDO DE CASO

PROJEÇÕES POPULACIONAIS PARA OS MUNICÍPIOS E DISTRITOS DO CEARÁ

Análise do Retorno da Educação na Região Norte em 2007: Um Estudo à Luz da Regressão Quantílica.

MODELO DE FILA HIPERCUBO COM MÚLTIPLO DESPACHO E BACKUP PARCIAL PARA ANÁLISE DE SISTEMAS DE ATENDIMENTO MÉDICO EMERGENCIAIS EM RODOVIAS

Figura 8.1: Distribuição uniforme de pontos em uma malha uni-dimensional. A notação empregada neste capítulo para avaliação da derivada de uma

UNIVERSIDADE DE BRASÍLIA FACULDADE DE TECNOLOGIA DEPARTAMENTO DE ENGENHARIA ELÉTRICA

Avaliação da Tendência de Precipitação Pluviométrica Anual no Estado de Sergipe. Evaluation of the Annual Rainfall Trend in the State of Sergipe

Introdução à Análise de Dados nas medidas de grandezas físicas

IMPACTO DAS EXPORTAÇÕES DAS COOPERATIVAS SOBRE O EMPREGO NO BRASIL EM

Palavras-chave: jovens no mercado de trabalho; modelo de seleção amostral; região Sul do Brasil.

Probabilidade nas Ciências da Saúde

Impactos dos encargos sociais na economia brasileira

PREVISÃO DO ÍNDICE MERVAL: UMA APLICAÇÃO DE REDES NEURIAS POLINOMIAIS GMDH

Y X Baixo Alto Total Baixo 1 (0,025) 7 (0,175) 8 (0,20) Alto 19 (0,475) 13 (0,325) 32 (0,80) Total 20 (0,50) 20 (0,50) 40 (1,00)

Despacho Econômico de. Sistemas Termoelétricos e. Hidrotérmicos

Otimização de Custos de Transporte e Tributários em um Problema de Distribuição Nacional de Gás

Carlos Vogt, Flávia Gouveia, Ana Paula Morales, Flávio Daher e Fábio Pisaruk *

Elaboração: Novembro/2005

UNIDADE IV DELINEAMENTO INTEIRAMENTE CASUALIZADO (DIC)

AGÊNCIA NACIONAL DE ENERGIA ELÉTRICA ANEEL RESOLUÇÃO Nº 488, DE 29 DE AGOSTO DE 2002

Influência dos Procedimentos de Ensaios e Tratamento de Dados em Análise Probabilística de Estrutura de Contenção

O Uso do Software Matlab Aplicado à Previsão de Índices da Bolsa de Valores: Um Estudo de Caso no Curso de Engenharia de Produção

BALANÇO HÍDRICO: UMA FERRAMENTA PARA GESTÃO INDUSTRIAL E OTIMIZAÇÃO AMBIENTAL.

RESOLUÇÃO Nº 32/2014/CONEPE. O CONSELHO DO ENSINO, DA PESQUISA E DA EXTENSÃO da Universidade Federal de Sergipe, no uso de suas atribuições legais,

Aprendizagem de Máquina

Palavras-chaves detector infravermelho, transmissão atmosférica, atenuação. I. INTRODUÇÃO

Aplicando o método de mínimos quadrados ordinários, você encontrou o seguinte resultado: 1,2

UM MODELO DE ALOCAÇÃO DINÂMICA DE CAMINHÕES VISANDO AO ATENDIMENTO DE METAS DE PRODUÇÃO E QUALIDADE

IMPLEMENTAÇÃO DO MÉTODO DE FATORAÇÃO DE INTEIROS CRIVO QUADRÁTICO

CONGRESSO DE INICIAÇÃO CIENTÍFICA E PÓS-GRADUAÇÃO - I CICPG SUL BRASIL Florianópolis 2010

Apostila de Estatística Curso de Matemática. Volume II Probabilidades, Distribuição Binomial, Distribuição Normal. Prof. Dr. Celso Eduardo Tuna

Controle de qualidade de produto cartográfico aplicado a imagem de alta resolução

Transcrição:

XV Workshop de Gerênca e Operação de Redes e Servços 131 Fltro de Conteúdo para Sstemas SMS Baseado em Classfcador Bayesano e Agrupamento por Drceu Belém 1, Fátma Duarte-Fgueredo 1 1 Pontfíca Unversdade Católca de Mnas Geras (PUC - Mnas) Rua Walter Iann, 255, Belo Horzonte, Mnas Geras, 31980-110, MG drceu@fourtme.com, fatmafg@pucmnas.br Abstract. There are many researches about e-mal spam flters. However, there are few researches that look at ths ssue for SMS (Short Message Servce) systems. Ths s a result of the dffculty n havng access to SMS platforms of moble operators. Furthermore, the volume of spams to SMS systems has ncreased year after year. The man objectve of ths work s to propose the mplementaton of a content flter for SMS systems based on the Bayesan Classfer and word groupng. In order to evaluate the performance of ths flter, 120 thousand messages sent from a content provder that servces moble operators were tested. The results demonstrated that the proposed flter reached a correct ndex spam detecton close to 100%. Resumo. Exstem mutas pesqusas sobre fltro de spam para e-mals. No entanto, exstem poucos trabalhos que abordam o assunto para sstemas SMS (Short Message Servce). A quantdade de spams para sstemas SMS tem aumentado a cada ano. O prncpal objetvo deste trabalho é propor a mplementação de um fltro de conteúdo para sstemas SMS baseado em classfcador Bayesano e agrupamento por palavras. Para avalar o desempenho do fltro, foram utlzadas 120.000 mensagens de um provedor de conteúdo que presta servço para operadoras de telefona celular. Os resultados apresentados demonstraram que o fltro proposto obteve um índce de acerto na detecção de spams próxmo de 100%. 1. Introdução Desde o lançamento da telefona celular, até os das de hoje, é possível perceber uma evolução dos dspostvos e dos servços prestados pelas operadoras. Uma grande varedade de servços passou a ser oferecda. O SMS (Short Message Servce), conhecdo popularmente como sstema de troca de mensagens de texto ou torpedos, tornou-se um dos mas mportantes servços, por ser de smples utlzação e de baxo custo. A utlzação dos servços SMS representou, em 2007 12% da receta das operadoras de telefona celular da Europa (Gartner, 2008). Na Chna, em 2000, foram envadas um blhão de mensagens SMS. Na Europa, em 2006, a receta das operadoras fo de 429,6 mlhões de euros e aumentara 30% em 2007, segundo He, Sun, Zheng, Wen (2008). As estmatvas de faturamento global prevstas até 2013, na utlzação de servços SMS, devem ser de US$ 177 mlhões (Boas, 2008). Consderando o alto percentual de mensagens ndesejadas em sstemas SMS, este trabalho apresenta um fltro de conteúdo baseado em classfcador Bayesano, para

132 Anas detectar spams prevamente. Na bblografa consultada, outros autores Deng e Peng (2006) mplementaram fltros de conteúdo baseados em Classfcadores Bayesanos. A proposta deste trabalho dferenca-se da deles por permtr o agrupamento de palavras das mensagens no fltro e na escalabldade dos testes. O algortmo desenvolvdo na mplementação do fltro, fo ntegrado a uma plataforma de envo de mensagens para sstemas SMS, de uma empresa provedora de conteúdo SMS, ntegrada a grandes operadoras de telefona celular do país. A mplementação do fltro fo realzada em uma ESME (External Short Message Entty). Essa entdade é responsável por entregar as mensagens envadas pelos provedores de conteúdo à SMSC (Short Message Servce Center). Tanto a ESME quanto a SMSC são componentes de uma arqutetura da operadora de telefona celular que será explcada detalhadamente no trabalho. O papel do fltro de conteúdo na ESME é classfcar e bloquear as mensagens classfcadas como spam. Este trabalho está organzado da segunte forma: a Seção 2 apresenta os prncpas concetos, onde são apresentadas as tecnologas exstentes sobre fltros de conteúdo. A Seção 3 apresenta os prncpas trabalhos relaconados. A Seção 4 apresenta a descrção do fltro baseado em Classfcação Bayesana e agrupamento por palavras. A Seção 5 apresenta os expermentos, os resultados e a análse. A Seção 6 apresenta as conclusões e os trabalhos futuros. 2. Prncpas Concetos 2.1. Spam Spam é defndo por Saham, Dumas, Heckerman e Horvtz (1998) como uma forma de bombardear caxas de mensagens com mensagens não solctadas a respeto de tudo, desde artgos para venda e formas de como enrquecer rapdamente, a nformações sobre como acessar stes pornográfcos. Para Cranor e LaMaccha (1998), os prncpas fatores que contrbuem para o crescmento do número de spam são a facldade de envá-lo para um grande número de destnatáros e de se obter endereços de e-mals váldos, além do baxo custo de envo. Cormack e Lynam (2005), defnem o spam como e-mal não solctado, emtdo de forma ndscrmnada, dreta ou ndretamente, por um remetente que não tem nenhum relaconamento com o destnatáro. O spam pode ser consderado o equvalente eletrônco das correspondêncas ndesejadas e dos telefonemas de telemarketng não solctados. 2.2. Formas de Bloqueo e Detecção de Spam As formas de bloqueo e detecção de um spam estão dvddas em: lstas de bloqueo, bloqueo temporáro de mensagens (greylstng), autentcação da organzação que está envando aquele e-mal (DomanKeys Identfed Mal) e fltros de conteúdo. As três prmeras técncas se baseam em bloquear o e-mal de acordo com o remetente ou quem está envando o e-mal, podendo bloquear mensagens vndas de um remetente, servdor, ou domíno. A últma técnca se basea em analsar o conteúdo do e-mal e detectar se aquele e-mal é ou não spam. Algumas soluções podem utlzar mas de uma técnca ao mesmo tempo.

XV Workshop de Gerênca e Operação de Redes e Servços 133 2.3. Fltros de Conteúdo propostos para E-mal A fltragem de conteúdo consste em analsar e dentfcar o conteúdo de acordo com uma classe, por exemplo, spam e não spam. Para que seja possível dentfcar as mensagens, o processo de fltragem precsa passar por um trenamento com uma amostra de mensagens das duas classes. Este processo de trenamento obtém os atrbutos necessáros para a dentfcação e classfcação das mensagens. Deng e Peng (2006), por exemplo, utlzam como atrbutos, quantdade de caracteres e o remetente, na dentfcação e classfcação das mensagens spam e não spam. Os prmeros fltros de conteúdo que surgram foram para spams de e-mal, mas podem ser adaptados para sstemas SMS. Segundo Mng, Yunchun e We (2007), váras técncas sobre fltragem de spam para e-mals foram cradas. Elas podem ser dvddas em três técncas: a prmera é baseada em palavra-chave, onde os algortmos extraem característcas do corpo do e-mal e dentfca as correspondêncas com essa palavrachave. Essa técnca é consderada passva e demorada. Por exemplo, quando os spammers alteram as palavras dos e-mals, o método se torna nefcaz por não encontrar as palavras e, quando há mutas palavras, as pesqusas são muto demoradas. A segunda técnca fltra o conteúdo. Essa técnca pode ser vsta como um caso partcular de categorzação de texto, onde apenas duas classes são possíves: spam e não spam. As soluções que utlzam essa técnca estão entre os prncpas métodos: classfcador Bayesano, SVM (Support Vector Machne), K-NN (K-Vznhos Mas Próxmos), Redes Neuras Artfcas, Árvores Boostng, Aprendzado Baseado em Memóra, Roccho e Sstemas Imunológcos Artfcas. A fltragem de conteúdo possu algumas desvantagens. Prmeramente, ocorre um desperdíco de largura de banda de rede, onde não é possível tomar decsão sobre o tpo do e-mal enquanto o mesmo não tenha sdo baxado nteramente no clente. Em segundo lugar, é dfícl garantr a atualdade da amostra, pela quantdade de e-mals e mudanças nos conteúdos de spam, sendo dfícl garantr o efeto e a persstênca do algortmo ant-spam. A tercera técnca é baseada na fltragem de spam. Essa técnca pode detectar spam e evtar as desvantagens da prmera e da segunda técnca. É uma técnca que reconhece spam através do comportamento dos usuáros ao envar novos e-mals, construndo o processo de decsão para receber e-mals. Essa técnca utlza o comportamento dos spammers para detectar novos spams. 2.4. Classfcador Bayesano A técnca fltragem de conteúdo baseada em classfcador Bayesano, segundo Slva (2009), é bastante utlzada em problemas de categorzação de texto e em fltros antspam. A dea básca é usar a probabldade na estmatva de uma dada categora presente em um documento ou texto. Assume-se que exste ndependênca entre as palavras, tornando o fltro mas smples e rápdo. Na teora da probabldade, o teorema de Bayes é relaconado à probabldade condconal de dos eventos aleatóros. Crado por Thomas Bayes, um famoso matemátco brtânco que vveu no século 18, o teorema de Bayes é utlzado para calcular probabldades posterores, a partr de nformações coletadas no passado, e representa uma abordagem teórca estatístca de nferênca ndutva na resolução de problemas (Kantardzc 2003). Por exemplo, ao se observar alguns sntomas de um

134 Anas pacente, é possível, utlzando-se o teorema, calcular a probabldade de um dagnóstco (Saham, Dumas, Heckerman e Horvtz, 1998). De acordo com o teorema de Bayes, a probabldade é dada por uma hpótese dos dados, consderada base posteror, que é proporconal ao produto da probabldade vezes a probabldade préva. A probabldade posteror representa o efeto dos dados atuas, enquanto a probabldade préva especfca a crença na hpótese, ou o que fo coletado anterormente. O teorema nos permte combnar a probabldade desses eventos ndependentes em um únco resultado (Saham, Dumas, Heckerman e Horvtz, 1998). Kantardzc (2003) apresenta a classfcação bayesana da segunte forma, seja X uma amostra de dados, cuja classe seja desconhecda, e seja H alguma hpótese, tal que os dados específcos da amostra X pertencem à classe C. Pode-se determnar P ( H X ), a probabldade da hpótese H possu dados observados na amostra X, onde P ( H X ) é a probabldade posteror que representa a confança na hpótese. P (H ) é a probabldade préva de H, para qualquer amostra, ndependente de como a amostra dos dados aparecem. A probabldade posteror P ( H X ) basea-se em obter mas nformações na probabldade préva P (H ). O teorema Bayesano provê o cálculo da probabldade posteror P ( H X ) utlzando as probabldades P (H ), P (X ) e P ( X H ), conforme fórmula ( 1). X H ) H ) H X ) = X ) Suponha que exste um conjunto de m amostras S = S, S,..., S } (conjunto de dados já trenados), onde cada amostra (1) { 1 2 m S é representada por um vetor de n dmensões { x 1, x2,..., xn}. Valores de x correspondem aos atrbutos A 1, A2,..., An, respectvamente. Além dsso, exstem k classes C 1, C2,..., Ck e todas as amostras pertence a uma dessas classes. Dada uma amostra de dados adconas x (onde sua classe é desconhecda), é possível predzer a classe para x usando a probabldade condconal mas elevada C X ), onde = 1,..., k. As probabldades são obtdas a partr do teorema de Bayes: C X C) C ) X ) = X ) Em ( 2), P (X ) é constante para todas as classes, somente o produto P X C ) C ) deve ser maxmzado. P C ) é o número de amostras trenadas para a ( classe ( C / m ( m é o total de amostras trenadas). Tendo em vsta a complexdade do cálculo de P X C ), especalmente para grandes conjuntos de dados, é realzado um ( pressuposto ngênuo de ndependênca condconal entre os atrbutos. Utlzando esse pressuposto, é possível expressar P X C ) como um produto: ( (2) P ( X C ) = n t = 1 x t C ) (3)

XV Workshop de Gerênca e Operação de Redes e Servços 135 Em ( 3), x t são valores para atrbutos na amostra X. As probabldades P x t C ) podem ser estmadas a partr do conjunto de dados trenados. ( 2.5. Fltros de Mensagens SMS Dentre as técncas conhecdas para fltragem de e-mal algumas delas também são utlzadas na fltragem de mensagens SMS. Lstas de bloqueo e fltros de conteúdo, utlzando técncas KNN, SVM e classfcação Bayesana, podem ser ctados. Além dessas técncas, fo encontrada também uma técnca chamada CAPTCHA (Completely Automated Publc Turng test to tell Computers and Humans Apart) nos trabalhos de He, Wen e Zheng (2008), Shahreza (2008), Zhang, He, Sun, Zheng e Wen (2008) e Shahreza (2006), onde é possível realzar um teste cogntvo para dentfcar um ser humano e um computador. Nesse caso, o fltro solcta uma resposta ao remetente sobre uma pergunta que não pode ser realzada por um sstema, nbndo, assm, as mensagens ndevdas. 2.6. O problema do falso postvo e do falso negatvo Um dos erros nacetáves na detecção de spam é não envar uma determnada mensagem ao usuáro por classfcá-la ncorretamente como spam. Esse erro é denomnado falso postvo. Ou seja, ao classfcar essa mensagem, o algortmo classfca essa mensagem como spam e não a enva ao usuáro. Em programas de e-mal, esse problema pode ser parcalmente resolvdo confgurando-os para envar mensagens classfcadas como spam para uma pasta específca. Sendo assm, o usuáro poderá verfcar essa pasta em busca de mensagens não spam classfcadas ncorretamente. Um outro tpo de erro, denomnado falso negatvo, não é tão grave. O únco aborrecmento é que o usuáro va receber novas mensagens spam em sua caxa de entrada de e-mals. Quando sso ocorrer, o únco trabalho que o usuáro terá será o de exclur essa mensagem, ou denuncá-la como spam, caso o seu programa de e-mals tenha essa opção (Asss, 2006). 3. Prncpas Trabalhos Relaconados O trabalho apresentado por Deng e Peng (2006) propõe um fltro de spam baseado em classfcador Bayesano para sstemas SMS. A proposta de Deng e Peng (2006) fo combnar a solução do fltro com o atrbuto palavra, com o fltro com os atrbutos, telefone, URL, tamanho da mensagem, valores monetáros, lsta negra (blacklst) de remetentes a serem bloqueados e lsta branca (whtelst) de remetentes confáves. A conclusão apresentada por Deng e Peng (2006), no trabalho realzado, fo que, ao se adconar novos atrbutos propostos no cálculo, os resultados apresentaram uma precsão maor para se classfcar as mensagens como spam e não spam. Ou seja, o fltro com os novos atrbutos obteve um resultado superor quando se compara com o algortmo sem os novos atrbutos, reduzndo o número de falsos postvos e falsos negatvos. Os resultados obtdos por Deng e Peng (2006) para os testes realzados adconando todos os atrbutos fo de 99,1% de acerto.

136 Anas 4. Descrção do fltro baseado em classfcação Bayesana e agrupamento por palavras A proposta deste trabalho é a mplementação de um fltro de conteúdo baseado em classfcação Bayesana para sstemas SMS. A classfcação Bayesana fo escolhda devdo à facldade de mplementação e conforme menconado anterormente, o fltro mplementado neste trabalho se dfere dos propostos por outros autores por agrupar palavras no trenamento do fltro e por estar mplementando dentro de uma ESME. Este trabalho propõe a utlzação de apenas palavras e três atrbutos para a classfcação dos fltros. 4.1. Implementação do Fltro Resumdamente, o trabalho engloba processos descrtos a segur: fo desenvolvda uma ESME e mplantada em uma operadora de telefona celular. Essa ESME recebe as mensagens envadas pelos provedores de conteúdo e classfca as mensagens como spam e não spam antes de envar à SMSC da operadora de telefona celular. Caso a mensagem seja classfcada como não spam, essa mensagem será encamnhada a SMSC da operadora que envará essa mensagem ao dspostvo móvel do usuáro. Fo desenvolvdo também um aplcatvo em Java para os dspostvos que suportam o sstema operaconal Androd, onde o usuáro poderá classfcar as mensagens como spam ou não spam, contrbundo com a base de dados do fltro. O fltro mplementado trabalha sobre cada mensagem para classfcá-la como spam ou não spam, da segunte forma: retra-se os caracteres especas, acentos, e stopwords, transforma-se todos os caracteres em mnúsculos. O conjunto de palavras restantes é armazenado em um vetor. Esse vetor é percorrdo sequencalmente, pegando uma, duas, três, quatro, ou cnco palavras, de acordo com a opção feta antes de se ncar o fltro. Todas as combnações de uma a cnco palavras são armazenadas no vetor. Cada elemento do vetor pode ser consequentemente uma, duas, três, quatro ou cnco palavras. Além dsso, cala elemento pode conter um valor agregado, ou seja, um atrbuto. Incalmente, foram obtdas 120.000 mensagens de uma ESME mplantada em uma operadora de telefona celular. As 120.000 mensagens foram classfcadas manualmente como spam e não spam de acordo com o caso. Todas as palavras de cada mensagem foram lstadas e agrupadas até no máxmo cnco palavras. Fo estabelecda uma probabldade de cada uma dessas palavras e grupos de palavras aparecerem em uma mensagem spam e não spam, através da fórmula de Bayes. Por exemplo, ao se receber uma mensagem com a palavra compre a maora dos usuáros consderara essa mensagem como spam, e, raramente, encontrara essa palavra em uma mensagem consderada não spam. Por sso, fo necessáro trenar o fltro para que fosse possível dentfcar a probabldade de uma mensagem com a palavra compre spam. O mesmo fo realzado para o grupo de duas, três e quatro palavras, como por exemplo compre agora, compre agora carro e compre agora carro mperdível. Esse treno fo feto com 25.000 mensagens spam e 95.000 mensagens não spam, totalzando 1.405.285 grupos de uma a cnco palavras. Durante o treno, o fltro ajustou as probabldades de cada uma das palavras e grupos encontrados nas mensagens, de acordo com a categora, spam e não spam.

XV Workshop de Gerênca e Operação de Redes e Servços 137 Fo realzada a remoção de stopwords, que consste em descartar as palavras que pouco refletem o conteúdo de um documento ou são tão comuns que não dstnguem nenhuma categora dos documentos, como por exemplo, artgos e preposções. Cada doma possu uma lsta de palavras consderadas stopwords. A lsta para o doma português fo obtda em Balnsk (Balnsk 2002). Para Slva (2009), nem todas as palavras são gualmente sgnfcatvas para representar uma categora. Algumas carregam mas sgnfcado que outras. Normalmente, os substantvos, segudos dos adjetvos e verbos carregam mas representatvdade do que outras classes gramatcas como os pronomes, as conjunções e os artgos. A remoção das stopwords consste em descartar as palavras que pouco refletem no conteúdo de um documento ou são tão comuns que não dstnguem nenhuma categora dos documentos. Todas as palavras foram convertdas para mnúsculas e acentos e caracteres especas foram retrados. Os atrbutos utlzados nessa pesqusa foram: grupos de uma a cnco palavras, telefones, URL s e valores monetáros. Os demas atrbutos da pesqusa de Deng e Peng (2006) foram desconsderados, como o tamanho da mensagem e o remetente. Esses atrbutos foram desconsderados porque as mensagens utlzadas nessa pesqusa são mensagens envadas por provedores de conteúdo. Essas mensagens possuem o tamanho maor quando se compara com mensagens envadas de assnante para assnante, e os remetentes sempre são os mesmos. Cada um desses atrbutos seleconados contrbu para o que se chama de probabldade posteror no cálculo do teorema de Bayes. Em seguda, a probabldade é calculada sobre todos os atrbutos de uma mensagem. O cálculo é realzado para ambos os casos, tanto para a mensagem ser spam, quanto para a mensagem não ser spam. A classfcação é determnada a partr do maor valor das probabldades de spam e não spam. Além dsso, o fltro estará em constante atualzação. A partr da chegada de novas mensagens, as probabldades de cada uma das palavras são atualzadas, dexando, assm, cada vez mas precsa a detecção de mensagens spam e não spam. 4.2. Descrção do Algortmo do Clente mplementado para o Sstema Operaconal Androd O algortmo do clente fo desenvolvdo para ser executado nos celulares que possuem o sstema operaconal Androd. Foram utlzados a lnguagem Java SDK 1.5 do Androd, e utlzando banco de dados SQLte. Nesta parte do projeto as pessoas poderão contrbur com as mensagens que recebem em seus celulares, ndcando se são ou não spams. Quando a aplcatvo é baxado e nstalado, o mesmo lê todas as mensagens na caxa de entrada do celular do clente e enva ao servdor os dados atualzados para serem ncluídos na base de dados central do fltro. A partr desse momento, a cada nova mensagem que chegar ao celular, novas probabldades são calculadas, e novos dados são envados ao banco de dados do servdor. 4.3. Descrção do Algortmo do Servdor O algortmo do servdor é a parte prncpal desse projeto. Ele contém toda a mplementação do fltro de conteúdo. A cada nova mensagem que o algortmo receber, são separados nos seguntes elementos: grupos de uma a cnco palavras e atrbutos. Após essa separação é realzado o cálculo da probabldade dessa mensagem ser ou não spam. Para cada grupos de palavras e atrbutos obtdos em uma mensagem, é realzado

138 Anas uma consulta na base de dados do fltro, dentfcando a ncdênca destes elementos como spam ou não spam. Posterormente, é realzado o cálculo, utlzando a Fórmula ( 4) a segur: W S) S) S W ) = W ) Após realzado o cálculo de cada um dos elementos da mensagem é realzado o cálculo da mensagem ntera ser spam, utlzando a Fórmula ( 5) abaxo. P ( S W ) = n t= 1 s t W ) O desenvolvmento do algortmo fcou dvddo em três módulos. No prmero módulo, denomnado Trenamento, foram nserdas uma lsta de mensagens, spam e não spam. As probabldades de cada um dos atrbutos e grupos de uma a cnco palavras são calculadas, classfcando cada uma delas como spam ou não spam. (4) (5) Fgura 1. Fluxograma do Módulo Trenamento

XV Workshop de Gerênca e Operação de Redes e Servços 139 No segundo módulo, denomnado Classfcação, o algortmo recebe uma mensagem e a classfca como spam ou não spam. No tercero módulo, denomnado Aprendzado, os usuáros que utlzarem o aplcatvo no sstema operaconal Androd poderão contrbur com o fltro a partr das classfcações realzadas por ele. O módulo Trenamento pode ser entenddo melhor no fluxograma da Fgura 1 e explcado melhor posterormente. O módulo Trenamento apresentado na Fgura 1 apresenta o fluxograma de trenamento das mensagens utlzadas. Incalmente fo realzado a carregamento dos stopwords na memóra do servdor para utlzação futura. Para cada mensagem lda fo realzado o processo de preparação da mensagem, onde todos os caracteres especas, acentos e stopwords são retrados, e fo verfcado se na mensagem exste algum atrbuto, como telefone, URL e valores monetáros. Fgura 2. Fluxograma do Módulo Classfcação e Aprendzado O módulo Classfcação e Aprendzado apresentado na Fgura 2 apresenta o fluxograma de classfcação da mensagem envada. Incalmente é realzado a carregamento dos stopwords, atrbutos e elementos na memóra do servdor para utlzação futura. A mensagem é preparada da mesma forma como demonstrado no processo da Fgura 1, onde todos os caracteres especas, acentos e stopwords são retrados, e é verfcado se na mensagem exste algum atrbuto, como telefone, URL e valores monetáros.

140 Anas 5. Expermentos e Resultados Os expermentos foram realzados no fltro de conteúdo após a carga de 120.000 mensagens que fo realzado no processo de trenamento. Dessas 120.000 mensagens, 25.000 mensagens foram classfcadas manualmente como spam e 95.000 mensagens foram classfcadas manualmente como não spam. Essa carga realzada gerou 1.405.285 elementos, além dos atrbutos telefone, URL e valores monetáros. Para realzar os expermentos foram obtdas mas 8.687 mensagens. Essas mensagens também foram classfcadas manualmente, e dentre elas 8008 mensagens foram classfcadas como não spam e 636 mensagens foram classfcadas como spam. Essa classfcação manual fo realzada para que após a obtenção dos resultados os mesmos possam ser conferdos e verfcando assm o percentual de acerto do algortmo. Os expermentos foram dvddos em cnco partes. Na prmera parte dos testes, as 8.687 mensagens foram classfcadas consderando apenas uma palavra e os atrbutos. Na segunda parte dos testes, as 8.687 mensagens foram classfcadas consderando o grupo de uma a duas palavras, e os atrbutos. Na tercera parte dos testes, as 8.687 mensagens foram classfcadas consderando o grupo de uma a três palavras, e os atrbutos. Na quarta parte dos testes, as 8.687 mensagens foram classfcadas consderando o grupo de uma a quatro palavras, e os atrbutos. Na qunta parte dos testes, as 8.687 mensagens foram classfcadas consderando o grupo de uma a cnco palavras, e os atrbutos. Para realzar os expermentos do fltro de spam SMS, fo utlzado um equpamento com um processador Intel (R) Xeon (R), com dos processadores de 2.0 GHz, memóra prncpal de 4 GB, memóra secundára de 350 GB, sstema operaconal Ubunbu 9.04 e banco de dados PostgreSQL 8.4. O tempo total gasto para este equpamento executar os testes chegou a 181,827 segundos na detecção de spams e não spams para 8.687 mensagens utlzando o agrupamento de uma a cnco palavras. 5.1. Resultados e Análses A Tabela 1 apresenta os resultados para classfcação de grupos de uma a cnco palavras e atrbutos. Os testes realzados para uma palavra e atrbutos apresentou o percentual de falsos postvos fo de 0,045% e o percentual de falsos negatvos fo 0,044%. O desempenho total do algortmo fo de 99,955% de acerto. Nessa parte do testes foram utlzados 69.515 grupos de uma palavra. O espaço utlzado para esses grupos fo de 0,49MB. Os testes realzados para o grupo de duas palavras e atrbutos apresentou o percentual de falsos postvos fo de 0,191% e o percentual de falsos negatvos fo 0,007%. O desempenho total do algortmo fo de 99,978% de acerto. Nessa parte do testes, foram utlzados 366.910 grupos de uma a duas palavras. O espaço utlzado para esses grupos fo de 4,38MB. Os testes realzados para o grupo de três palavras e atrbutos apresentou o percentual de falsos postvos fo de 0,209% e o percentual de falsos negatvos fo 0,005%. O desempenho total do algortmo fo de 99,9799% de acerto. Nessa parte do testes foram utlzados 717.550 grupos de uma a três palavras. O espaço utlzado para esses grupos fo de 11,05MB. Os testes realzados para o grupo de quatro palavras e atrbutos apresentou o percentual de falsos postvos fo de 0,218% e o percentual de falsos negatvos fo 0,005%. O desempenho total do algortmo fo de 99,9792% de acerto. Nessa parte do testes foram utlzados 1.073.356 grupos de uma a quatro palavras. O espaço utlzado para esses grupos fo de 19,95MB. Os testes realzados para o grupo de cnco palavras e atrbutos apresentou o percentual de falsos

XV Workshop de Gerênca e Operação de Redes e Servços 141 postvos fo de 0,220% e o percentual de falsos negatvos fo 0,005%. O desempenho total do algortmo fo de 99,9790% de acerto. Nessa parte do testes foram utlzados 1.405.285 grupos de uma a quatro palavras. O espaço utlzado para esses grupos fo de 30,32MB. Tabela 1. Resultados dos testes de grupos de uma, duas, três, quatro e cnco palavra e atrbutos Uma Palavra e Atrbutos Duas e Atrbutos Três e Atrbutos Quatro e Atrbutos Cnco e Atrbutos Tempo em segundos do teste 53,815 99,041 131,117 148,856 181,827 Número de mensagens 8.687 8.687 8.687 8.687 8.687 Quantdade de mensagens spam 8.008 8.008 8.008 8.008 8.008 Quantdade de mensagens não spam 636 636 636 636 636 Falso postvo 29 122 133 139 140 Falso negatvo 360 64 42 42 42 Grupos utlzados 69.515 366.910 717.550 1.073.356 1.405.285 Memóra (MB) 0,49 4,38 11,05 19,95 30,32 Conforme demonstrado no gráfco da Fgura 3, é possível perceber que o desempenho do fltro fo mas efcente quando fo utlzado do grupo de até três palavras e atrbutos. A utlzação do grupo de três palavras é mas efcente por executar em um tempo menor que o grupo de quarto e cnco palavras, e por ter um índce de acerto melhor que o grupo de uma e duas palavras. Também vale destacar a dferença na utlzação do grupo de uma palavra e o grupo de até duas palavras, onde o percentual de acerto aumentou sgnfcatvamente. Quando fo utlzado o grupo de até quatro e cnco, o desempenho teve uma pequena queda. % Acerto do Algortmo 99,985 99,980 99,975 99,970 99,965 99,960 99,955 99,950 99,945 99,940 Uma Palavra Duas Três Quatro Cnco % Acertos do Algortmo Fgura 3. Percentual de acerto do algortmo para o grupo de uma a cnco palavras Além dos testes realzandos com 120.000 mensagens, foram realzados testes com 10.000 mensagens para uma comparação com a quantdade de mensagens utlzadas por Deng e Peng (2006). Dentre as 10.000 mensagens, 5.000 mensagens são

142 Anas spam e 5.000 mensagens não spam. A Fgura 4, apresenta os resultados obtdos com o trenamento com 10.000 mensagens e testes com 8.687 mensagens. % Acerto do Algortmo com 10.000 mensagens 99,95400 99,95200 99,95000 99,94800 99,94600 Performance Total 99,94400 99,94200 99,94000 99,93800 Uma Palavra Duas Três Quatro Cnco Fgura 4. Percentual de acerto do algortmo para o grupo de uma a cnco palavras com testes realzados com 10.000 mensagens 6. Conclusões e Trabalhos Futuros A prncpal contrbução deste trabalho fo a mplementação de um fltro de conteúdo para sstemas SMS baseado em classfcador Bayesano com agrupamento de palavras. Com este tpo de agrupamento de palavras, fo possível melhorar o percentual de acerto do algortmo em comparação com a proposta de Deng e Peng (2006). Este trabalho fo motvado, prncpalmente, pela necessdade de se detectar e bloquear spams em ambentes reas de sstemas SMS de operadoras de telefona celular. Como os testes foram realzados sobre mensagens reas, de uma operadora de telefona celular, os resultados ndcam que o fltro apresentado é altamente efcaz e consegue dentfcar e bloquear spams com quase 100% de acerto. Consdera-se os resultados alcançados plenamente satsfatóros e o fltro totalmente possível de ser mplementado em redes reas. A dferença desta proposta para a de Deng e Peng (2006) está na mplementação do algortmo. Enquanto Deng e Peng (2006) usam apenas uma palavra, o fltro aqu proposto permte a combnação de uma a cnco palavras. Os testes para detecção de spams em um ambente real foram fetos para 120.000 mensagens, enquanto Deng e Peng (2006) testaram apenas para 10.000 mensagens. Os resultados mostraram que a utlzação de grupos de palavras tornou o fltro mas efcente na classfcação de mensagens spam e não spam, prncpalmente para grupos de duas ou três palavras. A utlzação de quatro e cnco palavras não obteve um resultado superor. O índce de acerto do fltro mplementado chegou a 99,9799%, enquanto a proposta de Deng e Peng (2006) obteve 99,1% de acerto. Quatro trabalhos futuros podem ser ctados: (1) Extensão do fltro para todas as mensagens trafegadas na SMSC da operadora com o agrupamento de palavras, adconando os atrbutos remetente e tamanho da mensagem, propostos por Deng e Peng (2006). (2) Implementação de um fltro de conteúdo com dversas classes. Dessa forma, o fltro ao nvés de classfcar as mensagens com apenas as classes spam e não spam

XV Workshop de Gerênca e Operação de Redes e Servços 143 poderá classfcar as mensagens por assunto, como por exemplo: promoção, esporte, fnancas, humor, polítcas e relgosas. Dessa forma o usuáro poderá lberar ou bloquear um determnado assunto. (3) Implementação de um fltro de conteúdo com classes por faxa etára. Dessa forma, o fltro, ao nvés de classfcar as mensagens com apenas as classes spam e não spam, poderá classfcar as mensagens em faxas etáras dos usuáros dos dspostvos móves. Assm, os usuáros dos dspostvos móves que possuem dade abaxo dos 18 anos, por exemplo, não receberão mensagens com conteúdo ofensvo ou pornográfco. (4) Implementação de um fltro de conteúdo que faça uma tarfação dferencada para o envo de mensagens promoconas ou propaganda. Nesse caso, a operadora, poderá tarfar dos provedores de conteúdo que envam mensagens com propaganda de forma dferencada. Referêncas ASSIS, J. M. C. Detecção de E-mals Spam Utlzando Redes Neuras Artfcas. Dssertação (Mestrado) Unversdade Federal de Itajubá - Programa de Pós- Graduação em Engenhara Elétrca, 2006. BALINSKI, Rcardo. Fltragem de Informações no Ambente do Dreto. 2002. Dssertação (Mestrado em Informátca) - Unversdade Federal do Ro Grande do Sul, Porto Alegre. BOAS, Roberta de Matos Vlas. Faturamento com SMS deve crescer globalmente, mas no Brasl preço alto dfculta uso. Dsponível em < http://web.nfomoney.com.br/templates/news/vew.asp?codgo=1241084&path=/suas fnancas/estlo/tecnologa/>. Acesso em: 19 out. 2008. CORMACK, G.; LYNAM, T. Spam corpus creaton for TREC. In: Proceedngs of the Second Conference on Emal and Ant-Spam. Mountan Vew, CA, USA: CEAS, 2005. Dsponível em: <http://www.ceas.cc/papers-2005/162.pdf>. Acesso em: 05 nov. 2009. CRANOR, L. F. LAMACCHIA, B. A. Spam! In: Commun. ACM. New York, NY, USA: ACM, 1998. v. 41, p. 74 83. ISSN 0001-0782. DENG, We-We., PENG, Hong. Research on a Nave Bayesan Based Short Message Flterng System. Machne Learnng and Cybernetcs, 2006 Internatonal Conference on, p. 1233-1237, Aug. 2006. GARNER, Phlp, MULLINS, Ian, EDWARDS, Reuben e COULTON, Paul. Moble Termnated SMS Bllng Explots and Securty Analyss. Industral Electroncs and Applcatons, 2008. ICIEA 2008. 3rd IEEE Conference on, p. 1319-1324, jun. 2008. HE, P. SUN, Y. ZHENG, W. WEN, X, Flterng Short Message Spam of Group Sendng Usng CAPTCHA, Knowledge Dscovery and Data Mnng, 2008. WKDD 2008. Internatonal Workshop on, p. 558 561, Jan. 2008. HE, Pezhou, WEN, Xangmng e ZHENG We. A Novel Method for Flterng Group Sendng Short Message Spam. Convergence and Hybrd Informaton Technology, 2008. ICHIT '08. Internatonal Conference on, p. 60 65, Aug. 2008.

144 Anas KANTARDZIC, M, Data Mnmg, Concepts, Models, Methods and Algorthms. J. B. Speed Scentfc School Unversty of Lousvle, IEEE Computer Socety, Sponser 2003 MING L, YUNCHUN L. WEI L. Spam Flterng by Stages. Convergence Informaton Technology, 2007. Internatonal Conference on. p. 2209-2213, Nov. 2007 SAHAMI, M. DUMAIS, S. HECKERMAN, D. HORVITZ E. A Bayesan Approach to Flterng Junk E-mal, AAAI Workshop on Learnng for Text Categorzaton, July 1998, Madson, Wsconsn. AAAI Techncal Report WS-98-05 SHAHREZA, M. Verfyn Spam SMS y Arabc CAPTCHA, Informaton and Communcaton Technologes, 2006. ICTTA '06. 2nd, p. 78 83, 2006. SHAHREZA, S. M.H., An Ant-SMS-Spam Usng CAPTCHA. Computng, Communcaton, Control, and Management, 2008. CCCM '08. ISECS Internatonal Colloquum on, p. 318 321, Aug. 2008. SILVA, Alsson Marques Da. Utlzação de Redes Neuras Artfcas para Classfcação de Spam. Dssertação (mestrado) Centro Federal de Educação Tecnológca de Mnas Geras. 126f. Mar. 2009. ZHANG, H. WEN, X; HE, P. ZHENG, W. Dealng wth Telephone Fraud Usng CAPTCHA, Computer and Informaton Scence, 2009. ICIS 2009. Eghth IEEE/ACIS Internatonal Conference on, p. 1096 1099, June 2009.