Detectando Usuários Maliciosos em Interações via Vídeos no YouTube

Transcrição

1 Detectando Usuários Maliciosos em Interações via Vídeos no YouTube Fabrício Benevenuto Jussara Almeida Tiago Rodrigues Marcos Gonçalves Virgílio Almeida ABSTRACT Various services on the Web 2. offer functions that allow users to post videos as response to a discussion topic. As an example, YouTube allows users to post video responses to an opening video topic. Such a video response can be a polluted video, aiming at increasing the popularity of the discussed topic, disseminating advertisements, distributing pornography or simple degrading the system reputation. Content pollution may compromise user satisfaction with the system since users cannot easily identify polluted content before watching at least a segment of it, consuming system resources, especially bandwidth. This work approaches the problem of detecting the malicious users who post polluted content. To do it, we construct a test collection with users from YouTube. Using attributes of users and videos, we apply a classification algorithm as approach to detect owners of polluted content. Additionally, we build a simulator to verify the applicability of our approach in different scenarios. RESUMO Vários serviços na Web 2. oferecem funções que permitem usuários postarem vídeos como resposta para tópicos de discussão. Como exemplo, o YouTube permite que usuários postem vídeos como resposta outros vídeos. Esse vídeo resposta pode ser poluído, na tentativa de aumentar a popularidade do tópico discutido, disseminar propagandas, distribuir pornografia ou simplesmente degradar a reputação do sistema. Poluição de conteúdo pode comprometer a satisfação do usuário com o sistema já que usuários não podem facilmente identificar o conteúdo poluído antes de assistir pelo menos um segmento do vídeo, consumindo recursos do sistema, em especial largura de banda. Este trabalho aborda o problema de detectar os usuários maliciosos que postam vídeos poluídos. Para isso, nós construímos uma coleção de testes com usuários do YouTube. Utilizando atributos de usuários e vídeos, nós aplicamos um algoritmo de classificação como abordagem para detectar os usuários donos de conteúdo poluído. Além disso, construímos um simulador para verificar a aplicabilidade da nossa abordagem em diferentes cenários. Categories and Subject Descriptors H.3.5 [Online Information Services]: Web-based services; H.4.m [Information Systems Applications]: Miscellaneous; J.4 [Computer Applications]: Social and behavioral sciences * Fabrício Benevenuto teve o apoio do UOL ( através do Programa UOL Bolsa Pesquisa, processo de número a. General Terms Human Factors, Measurement Keywords social network, video response, video spam, video promotion. INTRODUÇÃO Cada vez mais a Web vem se transformando em um canal para a disseminação de conteúdo multimídia. Parte do sucesso de vídeos na Web é devido à mudança no papel do usuário, que deixou de ser apenas usuário final e passou também a criar e disponibilizar conteúdo. Vários serviços na Web 2. oferecem funções baseadas em vídeos como alternativas para funções que utilizam apenas texto, como revisões e opiniões sobre produtos e propagandas [4]. Em redes sociais de distribuição de vídeos, como o YouTube, milhões de novos vídeos são adicionados todos os dias, sendo que usuários possuem três mecanismos para encontrar vídeos de seus interesses: ) sistemas de busca, 2) listas ordenadas de vídeos e usuários como os mais vistos e os mais discutidos, 3) elos entre usuários ou vídeos. Ao permitir usuários criarem conteúdo, redes sociais de distribuição de vídeos ficam sujeitas a diferentes formas de ações maliciosas e oportunistas []. Chamamos de poluidores, usuários que agem maliciosamente na tentativa de divulgar conteúdo, atacando qualquer uma das três formas mencionadas de divulgação de conteúdo. Como exemplo, um usuário pode postar um vídeo com várias tags populares, porém não relacionadas ao vídeo, na tentativa de enganar o mecanismo de busca [2]. Além disso, usuários podem criar contas falsas para elevar o ranking de um determinado conteúdo, colocando-o em listas de "mais" (ex. mais vistos, mais discutidos) na tentativa de divulgar o conteúdo do vídeo promovido. Por último, usuários podem criar elos entre vídeos na tentativa de divulgar algum conteúdo. Por exemplo, o YouTube oferece uma ferramenta chamada de vídeos resposta. Vídeos resposta permitem que usuários interajam através de vídeos, tendo como ponto de partida um vídeo inicial (vídeo respondido) que abre uma seqüência de vídeos resposta de outros usuários. Usuários podem divulgar o conteúdo de um determinado vídeo (ex. uma propaganda) postando esse vídeo como resposta para um vídeo bastante popular e discutido. Este trabalho aborda a detecção de usuários que realizam os dois últimos tipos de ações maliciosas citadas acima. Chamamos de vídeo poluído, um vídeo cujo conteúdo é completamente não relacionado ao assunto do vídeo respondido e consideramos duas situações em que um vídeo poluído pode ocorrer. A primeira refere-se à situação em que o vídeo resposta tenta promover seu próprio con-

2 teúdo, fazendo propagandas que podem aumentar vendas, disseminando pornografia (muitas vezes como propaganda de um sítio na Web) ou simplesmente na tentativa de comprometer a reputação do sistema. Chamamos os usuários que postam esses vídeos de vídeo spammers. A segunda situação ocorre quando o vídeo resposta visa apenas promover o vídeo respondido, fazendo com que o vídeo respondido fique em evidência por ser um vídeo bastante discutido no sistema. Chamamos de promotores de vídeos os donos desse tipo de vídeo spam. Diferentemente, dos spammers, os promotores de vídeos visam promover o conteúdo do vídeo respondido, postando vários vídeos resposta para colocar um vídeo em listas de mais respondidos, e deixar o vídeo respondido em evidência no sistema. Em geral, essas listas, possuem tamanho limitado e, consequentemente, vídeos promovidos nessas listas tiram o lugar de outros vídeos. Ao invés de identificar o próprio vídeo spam, visamos identificar os usuários poluidores que postaram esses vídeos. Nós propomos um mecanismo que classifica um usuário como spammer, promotor ou legítimo baseado no perfil do usuário, em suas relações sociais na rede, e nas características de seus vídeos. Para isso, construímos um coleção de testes com usuários do YouTube, classificados "manualmente" como legítimos, spammers e promotores. Utilizando-se atributos dos usuários e de seus vídeos, aplicamos um algoritmo de classificação e avaliamos a efetividade da nossa abordagem utilizando os usuários da coleção de testes. Finalmente, construímos um simulador de um sistema de interações via vídeo para avaliarmos a poluição no sistema sob diversas situações e verificar a aplicabilidade do mecanismo de detecção proposto. O restante do trabalho está organizado da seguinte forma. A próxima seção descreve trabalhos relacionados. A seção 3 descreve a estratégia de coleta de dados do YouTube e a construção da coleção de testes. A seção 4 apresenta uma caracterização de alguns atributos que diferenciam usuários na coleção de testes. Em seguida, a seção 5 descreve nossa abordagem para detecção de usuários poluidores. Na seção 6 um ambiente de interações através vídeos é simulado, e, finalmente, a seção 7 oferece conclusões e direções para trabalhos futuros. 2. TRABALHOS RELACIONADOS Mecanismos de detecção de spam e spammers foram amplamente estudados no contexto da Web [3] e [9]. Em particular, um estudo sobre spam em sistemas de tags, um tipo de comportamento malicioso que visa aumentar a visibilidade de um objeto através do mecanismo de busca, foi proposto em [2]. Apesar de aplicável a qualquer sistema que permite usuários associarem tags a vídeos, como o YouTube, o estudo explora essencialmente propriedades de tags e resultados de busca. Sendo assim, nossa abordagem é complementar à desse trabalho, pois visamos combater poluição em outros mecanismos de divulgação de conteúdo. Várias abordagens para combater spam em redes sociais são discutidas em []. Muitas dessas abordagens são baseadas na extração de características do conteúdo do objeto, podendo ser aplicadas a informações textuais, imagens em s, comentários textuais em blogs, fóruns e redes sociais. Entretanto, a classificação de conteúdo de vídeos, uma mídia muito mais rica, é bem mais difícil de ser realizada. Nossa abordagem consiste em classificar os usuários donos de vídeos, ao invés dos próprios vídeos, e explora características tanto de usuários quanto de vídeos na rede. Complementar ao nosso esforço uma análise de distribuições de popularidade, evolução e características do conteúdo do YouTube é apresentada em [4]. Os autores analisam mecanismos de melhorar a distribuição de vídeos, como caches e abordagens par-a-par. Gill et al [7] apresenta uma caracterização do tráfego do YouTube coletado na rede de uma universidade e compara as propriedades do tráfego com outros trabalhos de caracterização de carga para Web e multimídia. Ambos os trabalhos não abordam a identificação de usuários maliciosos no YouTube. Em um trabalho anterior [], estudamos características sociais de uma rede formada por interações através de vídeos resposta no YouTube e verificamos a existência de poluição nessas interações. Em nosso trabalho atual, abordamos o problema identificar sistematicamente os causadores dessa poluição. 3. COLEÇÃO DE VÍDEOS Para classificar usuários como legítimos, spammers ou promotores de vídeos, foram coletados dados do YouTube, uma das mais populares redes sociais de distribuição de vídeos criados pelos usuários. A partir dos dados coletados, construímos uma coleção de testes para avaliar a efetividade do mecanismo de detecção de spammers. Esta seção descreve a coleta de dados e os critérios utilizados na seleção de usuários para a coleção de teste. 3. Coletando o YouTube Nossa estratégia consiste em coletar usuários que participam de interações através de vídeo resposta. Em outras palavras, coletamos uma amostra de usuários que responderam ou foram respondidos com vídeos respostas. Dizemos que um vídeo é um vídeo respondido se ele possui pelo menos um vídeo resposta. Da mesma forma, dizemos que um usuário do YouTube é um usuário respondido se pelo menos um de seus vídeos é um vídeo respondido. Com base nas interações de usuários através de vídeos resposta, definimos o seguinte grafo. Em um dado instante de tempo t, seja X a união de todos os usuários respondidos com os que postaram vídeos resposta. Denotamos como grafo de vídeos resposta o grafo direcionado (X, Y ), onde (x, x 2) é uma aresta direcionada em Y se o usuário x X postou um vídeo resposta para um vídeo do usuário x 2 X. input : Lista L de usuários (sementes). foreach Usuário U em L do.2 Coleta dados de U e sua lista de vídeos;.3 foreach Vídeo V na lista de vídeos do.4 Coleta HTML de V ;.5 if V é vídeo respondido then.6 Coleta HTML dos vídeos resposta de V ;.7 Insere usuários responsíveis em L;.8 end.9 if V é um vídeo resposta then. Insere o usuário respondido em L;. end.2 end.3 end Algoritmo : Coletor Para obter um grande conjunto de usuários e construir o grafo de vídeos resposta, utilizamos um procedimento de amostragem descrito no Algoritmo. Utilizando como semente os donos dos vídeos na lista dos vídeos mais respondidos de todos os tempos, fornecida pelo YouTube, seguimos os elos de vídeos respondidos e vídeos resposta, coletando informações sobre usuários, seus vídeos respondidos e vídeos resposta. As informações do conjunto de dados coletado está sumarizado na tabela.

3 Grau de Saída region região 3 region região 4 region região region região 2 Grau de Entrada Figura : Níveis de interação no grafo de vídeos resposta 3.2 Definição da Coleção de Testes Uma coleção de testes, contendo um conjunto de usuários do YouTube pré-classificados como legítimos, spammers ou promotores de vídeos, é necessária para avaliar a efetividade da nossa abordagem de classificação de poluidores no YouTube. Entretanto, até onde sabemos, nenhuma coleção desse tipo está disponível (nem para o YouTube nem para qualquer outro sistema de distribuição de vídeos). Sendo assim, precisamos criar uma coleção de testes que seja representativa. Obter usuários aleatoriamente dentre os coletados não é uma boa estratégia pois, isso pode levar a uma fração muito pequena de poluidores, tornando a análise dos resultados inconsistente. Sendo assim, definimos três estratégias, com o objetivo de selecionar não apenas diferentes tipos de usuários legítimos, mas também incluir um número significativo de poluidores. Definimos como spammers, usuários que postam pelo menos um vídeo considerado não relacionado (um vídeo spam) ao conteúdo do vídeo respondido na tentativa de promover o vídeo resposta. Como exemplos de vídeos resposta considerados não relacionados aos vídeos respondidos, e consequentemente, classificados como vídeos spam temos: () uma propaganda de um produto ou sítio na Web completamente não relacionado ao tópico do vídeo respondido, (2) pornografia postada como resposta para um vídeo com desenhos animados. Usuários que postaram vídeos spam com o objetivo de promover o vídeo respondido foram classificados como promotores de vídeos. Como exemplo de promotores, notamos alguns usuários que postaram vários vídeos em seqüência e sem conteúdo (duração de segundos) como resposta a um único vídeo respondido. As definições de spammers e promotores de vídeos são subjetivas, pois são baseadas no julgamento humano sobre o conteúdo do vídeo. Para minimizar o impacto do erro humano, quatro voluntários classificaram cada usuário. Todos os usuários e seus vídeos resposta foram analisados e independentemente classificados por três voluntários. O quarto foi utilizado para os casos em que as classificações diferiram. Em caso de dúvida sobre o conteúdo do vídeo ser ou não relacionado ao tópico, os voluntários foram instruídos a classificar os vídeos resposta como legítimos, ou seja, utilizamos uma estratégia conservadora. Como um exemplo, vídeos resposta com pessoas conversando ou expressando suas opiniões foram classificados como legítimos. As estratégias utilizadas para construir a coleção de testes foram: () Para selecionarmos usuários legítimos com diferentes níveis de interação, consideramos o grafo (X, Y ) de vídeos respostas (veja seção 3.). A figura mostra os graus de entrada e saída de Período da coleta -8//28 # vídeos resposta 7.95 # vídeos respondidos # usuários Tabela : Sumário dos dados coletados cada usuário. Foram definidas quatro regiões nesse grafo, representando quatro grupos de usuários com diferentes níveis de interação através de vídeos. A região consiste de usuários com baixo grau de entrada e de saída, correspondendo aos usuários que possuem um baixo nível de interação com outros usuários. A região 2 consiste de usuários com alto grau de entrada e baixo grau de saída. Esses usuários recebem vídeos resposta de um grande número de outros usuários, mas postam vídeos resposta para um número pequeno. A região 3 consiste de usuários com baixo grau de entrada e alto grau de saída. Por último, a região 4 consiste de usuários muito interativos, com alto grau de entrada e de saída. Foram selecionados usuários de cada região 2. Dos 4 usuários selecionados, 382 foram manualmente classificados como legítimos, foram classificados como spammers e nenhum foi classificado como promotor de vídeos. Os 8 restantes não foram incluídos por terem suas contas excluídas pelo YouTube por violação dos termos de uso. (2) Nossa segunda estratégia visa populacionar nossa coleção de testes com spammers e promotores de vídeos. s tendem a postar seus vídeos resposta para vídeos mais populares na tentativa de fazer com que o vídeo spam seja visível para uma grande comunidade de usuários. Promotores também podem ser encontrados entre os vídeos mais populares já que o objetivo de um promotor de vídeos é justamente colocar vídeos entre os mais respondidos. Observando as miniaturas (thumbnails) dos vídeos resposta postados para vídeos entre os vídeos mais respondidos, selecionamos um grande número de usuários suspeitos para inspeção manual. Esta estratégia levou a inserção de mais 7 usuários legítimos, 8 spammers e 28 promotores de vídeos. (3) Nossa última estratégia consiste em selecionar vários usuários que postaram vídeos para os vídeos mais respondidos de forma a minimizar algum possível viés introduzido pela segunda estratégia. Sendo assim, selecionamos aleatoriamente 3 usuários que postaram algum vídeo para um vídeo entre os vídeos mais respondidos de todos os tempos. Com essa estratégia classificamos mais 252 usuários legítimos, 29 spammers e 3 promotores de vídeos. No total, nossa coleção de testes contém 855 usuários, sendo 64 legítimos, 57 spammers e 3 promotores de vídeos. Os usuários nessa coleção de testes postaram vídeos resposta para diferentes vídeos respondidos. 4. CARACTERÍSTICAS DOS USUÁRIOS Usuários legítimos, spammers e promotores de vídeos possuem objetivos diferentes e, consequentemente, possuem características diferentes. Esta seção apresenta características que ressaltam as diferenças entre essas três classes de usuários. Inicialmente, abordamos as características dos vídeos dos usuários. Cada vídeo possui um conjunto de atributos tal como o número de exibições, número de vídeos resposta recebidos, número de comentários, número de vezes que o vídeo foi selecionado como favorito, entre outros. Esses atributos podem ser vistos como indicadores da qualidade dos vídeos gerados pelos usuários. Sendo assim, agrupamos essas características em três grupos de vídeos para cada usuário: todos os vídeos adicionados pelo usuário, apenas os vídeos resposta, todos os vídeos respondidos pelo usuário. A figura 2 (esquerda) mostra a distribuição cumulativa (CDF) do número médio de exibições por vídeo considerando-se todos os vídeos de cada usuário. Vídeos adicionados por promotores são menos exibidos do que vídeos de spammers que são menos vistos 2 Note que o número de usuários nas regiões, 2, 3 e 4 são , 2.333, 3.89 e.54, respectivamente. Logo, selecionando o mesmo número de usuários de cada região leva a uma tendência a usuários da região 4

4 % Acumulada Número de exibições (todos os videos) % Acumulada Duração Média (segundos) % Acumulada Número de avaliações Figura 2: Número médio de exibições de todos vídeos do usuário (esq.), duração média dos vídeos resposta dos usuários (centro) e número de avaliações dos vídeos respondidos (dir.) que vídeos de usuários legítimos. Na coleção de testes, 97% dos usuários legítimos tiveram seus vídeos exibidos, em média, mais de vezes, enquanto que 9% dos spammers e apenas 4% dos promotores de vídeos superaram exibições em média. Obviamente, os vídeos postados por promotores são bem menos exibidos do que os vídeos dos usuários das outras duas classes. Como o objetivo dos promotores de vídeos é elevar o ranking do vídeo respondido, muitos de seus vídeos possuem conteúdo sem sentido e com curta duração, atraindo a atenção de poucos usuários. Outros atributos como número de exibições, número de menções honrosas recebidas e número de elos externos refletem como outros usuários vêem os vídeos postados por promotores, spammers e usuários legítimos. De maneira geral, a análise desses atributos mostra que os vídeos postados por promotores são menos populares do que vídeos postados por spammers, que são menos populares do que vídeos de usuários legítimos. A seguir vamos avaliar a duração média dos vídeos resposta postados por usuários de cada classe. A figura 2 (centro) mostra a CDF da média da duração dos vídeos resposta dos usuários de cada classe. Vídeos de promotores são, em geral, vídeos de pouca duração (média de 7,4 segundos). Os vídeos resposta dos promotores são muito mais curtos do que os vídeos resposta dos spammers que, por sua vez, são mais curtos do que os vídeos resposta dos usuários legítimos. Note que 4% dos promotores possuem vídeos resposta com média de duração menor do que segundo, o que acontece raramente entre usuários legítimos e spammers. Finalmente, vamos analisar uma característica do conjunto de vídeos respondidos. Todo vídeo exibido no YouTube pode ser avaliado por usuários cadastrados no YouTube com uma nota que varia de a 5. Intuitivamente, esperamos que spammers postem seus vídeos para vídeos populares (e consequentemente bem avaliados) na tentativa de atrair exibições para seus vídeos. Por outro lado, promotores de vídeos querem fazer com que um vídeo respondido se torne popular, o que muitas vezes não acontece. A figura 2 (direita) mostra a CDF para a soma de todas as avaliações recebidas pelos vídeos respondidos por promotores, spammers e usuários legítimos. Podemos ver que promotores de vídeos visam vídeos com poucas avaliações enquanto spammers visam vídeos bem avaliados pelos outros. Usuários legítimos representam um meio termo entre spammers e promotores de vídeos, postando vídeos resposta tanto para vídeos com muitas quanto vídeos com poucas avaliações. Outro conjunto de atributos considerado consiste nas características individuais do comportamento do usuário. Intuitivamente, esperamos que usuários legítimos passem mais tempo interagindo com o YouTube, realizando ações como escolher amigos, adicionar vídeos como favoritos, subscrever a um usuário, etc. Para verificar essa intuição, considere a figura 3 (esquerda), que mostra a CDF do número de amigos dos usuários da coleção de testes. Usuários legítimos exibem um grande número de elos de amizade na rede do YouTube. Como exemplo, 75% dos usuários legítimos possuem mais do que amigos, enquanto 49% dos spammers e apenas 7% dos promotores de vídeos possuem mais do que esse mesmo número de amigos. Além de características de usuários e vídeos, atributos importantes podem ser obtidos a partir das relações sociais dos usuários. Essas características são derivadas da estrutura do grafo de vídeos resposta, que é uma das possíveis redes sociais do YouTube. Existem várias métricas de redes sociais associadas com a rede que poderiam indicar o nível de interação dos usuários em uma rede social, incluindo coeficiente de clusterização, betweenness, reciprocidade e assortatividade [5]. Por limitações de espaço, vamos mostrar resultados apenas para a reciprocidade. A reciprocidade (R) para o grafo de vídeos resposta é dada por: R(x) = OS(x) IS(x) OS(x) onde OS(x) é o conjunto de usuários que receberam vídeos resposta de um usuário x e IS(x) é o conjunto de usuários que enviaram vídeos resposta para x. A reciprocidade mede a probabilidade de um usuário receber um vídeo resposta de cada usuário para o qual ele/ela enviou um vídeo resposta. A figura 3 (centro) mostra que todos os promotores de vídeos possuem reciprocidade e que a fração de spammers que tiveram reciprocidade maior que é baixa, cerca de 6%. Por outro lado, cerca de 38% dos usuários legítimos possuem reciprocidade maior que. Logo, promotores de vídeos são naturalmente associados a reciprocidade, spammers são associados a reciprocidade baixa (mas potencialmente não zero), enquanto que usuários legítimos, cujo comportamento é caracterizado por relações sociais, são, em geral, associados a valores mais altos de reciprocidade. Nós também utilizamos o algoritmo PageRank [2] em nosso grafo para determinar a importância do usuário em termos de interações de vídeos resposta. No algoritmo do PageRank, uma página Web possui um ranking alto se a ela possui várias elos de entrada ou elos vindos de páginas com ranking alto. Chamamos os números computados pelo algoritmo do PageRank em nosso grafo de User- Rank, que pode ser utilizado como um indicador da importância dos usuários em termos de suas participações através de interações via vídeo []. A figura 3 mostra que usuários legítimos possuem um UserRank mais alto do que spammers que, por sua vez, possuem UserRank mais alto do que promotores de vídeos. Essas diferenças entre usuários discutidas nessa seção, e várias outras não discutidas por questões de espaço, podem ser utilizadas para detectar spammers e promotores de vídeos. A seguir utilizamos essas características aplicadas a um algoritmo de classificação. ()

5 % Acumulada Número de amigos % Acumulada Leg timo Reciprocidade % Acumulada UserRank (normalizado) Figura 3: Número de amigos (esq.), Reciprocidade (centro) e PageRank (dir.) dos usuários da coleção de testes 5. DETECÇÃO DE POLUIDORES Nosso método para detecção de spammers e promotores de vídeos é baseado em uma abordagem de aprendizado de máquina para classificação dos usuários. Nesta abordagem, o algoritmo de classificação "aprende" com parte dos dados e então aplica seu conhecimento para classificar usuários em três tipos: legítimos, spammers ou promotores. A seguir apresentamos os atributos utilizados pelo classificador, as métricas usadas para avaliar a eficiência da classificação, os resultados e as situações em que o algoritmo de classificação erra. 5. Atributos Os atributos selecionados podem ser separados em três grupos: Atributos dos Usuários: Para cada usuário, utilizamos vários atributos correspondentes ao seu perfil. Os 9 atributos utilizados são: número de vídeos adicionados no YouTube, número de amigos, número de vídeos assistidos, número de vídeos adicionados como favoritos, número de vídeos resposta enviados e recebidos, número de inscrições, número de inscritos e o número máximo de vídeos adicionados em um dia. Atributos dos Vídeo: Para cada usuário foram considerados os três conjuntos de vídeos discutidos na seção 4: vídeo adicionados ao YouTube, apenas os vídeos respostas postados, vídeos respondidos pelo usuário. Para cada conjunto consideramos a média e o total dos seguintes atributos: duração, número de exibições, avaliações, comentários, favoritos, menções honrosas e elos externos. Como consideramos a média e o total destes atributos para cada um dos três conjuntos, temos um total de 42 atributos para cada usuário. Atributos de Redes Sociais: Foram utilizados 8 atributos de redes sociais baseados no grafo de vídeos resposta: coeficiente de clusterização, UserRank, betweenness, reciprocidade e assortatividade [5]. O coeficiente de clusterização de um nodo i cc(i) é a taxa do número de arestas existentes sobre o número de todas as arestas possíveis entre os vizinhos de i. Este coeficiente mede a densidade da comunicação, não só entre dois usuários, mas também entre os vizinhos dos vizinhos. O betweenness é a medida da centralidade de um usuário no grafo de vídeos resposta. Vértices que ocorrem em muito caminhos mínimos entre dois vértices possuem maior betweenness do que aqueles que não ocorrem. Com o intuito de utilizarmos a assortatividade como uma métrica de cada nodo, ela foi definida como a razão entre o grau do nodo e a média do grau dos seus vizinhos [3]. A assortatividade é calculada para quatro tipos de correlação grau-grau (entrada-entrada, entrada-saída, saída-entrada e saída-saída). Os graus de entrada e saída não foram utilizados como atributos porque foram utilizados para definir parte dos usuários da coleção de testes (veja seção 3.2). 5.2 Métricas Para medir o desempenho da classificação com múltiplas classes, utilizamos as medidas convencionais [6]: micro F, macro F, precisão média e revocação média (explicadas a seguir), o que permite a comparação de resultados com futuras abordagens de classificação para a coleção de testes que criamos. Revocação (r) de uma classe é a razão do número de usuários corretamente classificados pelo número de usuários da classe. Precisão (p) de uma classe é a razão do número de usuários classificados corretamente pelo total predito como sendo dessa classe. O F ou F-measure é definido como F = 2pr/(p + r), que leva em consideração tanto a precisão quanto a revocação. Como um exemplo, considere a seguinte tabela abaixo, que representa uma matriz de confusão []. Cada posição da matriz representa o número de elementos em suas classes originais e como eles foram previstos pela classificação. Na matriz abaixo, a precisão (p prom) e a revocação (r prom) para a classe promotor podem ser calculadas da seguinte forma: p prom = a/(a + d + g) e r prom = a/(a + b + c). Previsto Promotor Promotor a b c Real d e f g h i A precisão e revocação médias e o macro F, são calculados a partir da média dessas medidas computadas para cada classe individualmente. Já o micro F é calculado computando-se as decisões de todas as categorias juntas, a partir da revocação e precisão globais. O micro F considera igualmente importante a classificação de cada usuário enquanto que o macro F considera igualmente importante o desempenho em cada classe, independente de seu tamanho relativo. 5.3 Classificação Foi escolhido como método de classificação, o SVM [5] (Support vector machine), um algoritmo de classificação bastante conhecido por seu desempenho competitivo com o estado da arte. Basicamente, o SVM realiza a classificação mapeando entradas de vetores em um espaço N-dimensional. O objetivo é encontrar os hiperplanos que separam os dados em categorias. Foi utilizado o SVM não-linear com kernel RBF para permitir os modelos do SVM separarem os hiperplanos com limites complexos. A implementação do SVM utilizada é a libsvm [6], um pacote de código aberto que permite buscar pelos melhores parâmetros (ex. custo e gama) de configuração do SVM para a base de dados. Particularmente, utilizamos uma ferramenta do libsvm chamada easy, que provê uma série de otimizações, incluindo normalização de todos os atributos númericos. Para a realização dos testes utilizamos validação cruzada 5-fold. Nesse teste, a base de dados original é embaralhada e então particionada em 5 partes. Uma das partes é usada como teste para o

6 classificador e as outras quatro partes restantes são utilizadas para treinar o classificador. O processo é repetido 5 vezes, com cada uma das partes sendo utilizada como teste somente uma vez. O resultado final é a média das 5 execuções. Para obter médias mais representativas, repetimos a validação cruzada 5-fold utilizando-se 5 sementes diferentes para o embaralhamento da base original, resultando na execução de 25 testes. Os resultados abaixo apresentados são a média desses 25 testes. Com 95% de confiança, nenhum resultado difere da média em mais de 6%. Previsto Promotor Promotor 96,77% 3,23%,% Real 2,7% 54,39% 43,44%,22% 5,2% 94,57% Tabela 2: Matriz de confusão da classificação A tabela 2 mostra a matriz de confusão obtida como resultado da classificação. Os números apresentados são porcentagens relativas ao total de usuários em cada classe. A diagonal em negrito indica a taxa de acerto em cada classe real (revocação de cada classe). Particularmente, 96,77% dos promotores de vídeos, 54,39% dos spammers e 94,57% dos usuários legítimos foram classificados corretamente. Observando a matriz, podemos notar que nenhum promotor foi classificado como legítimo. Da mesma forma, usuários legítimos dificilmente são classificados como promotores (apenas,22%). Apenas 3,23% dos promotores são classificados como spammers. Observando as características desses usuários, notamos que os vídeos por eles respondidos (vídeos promovidos) conseguiram certa popularidade. Como vídeos respondidos populares são o alvo típico de spammers, esses promotores foram confundidos com spammers pelo algoritmo de classificação. Uma fração significativa de spammers é confundida com usuários legítimos. De maneira geral, estes spammers possuem relações sociais e uma quantidade significativa de vídeos legítimos, agindo ora como usuários legítimos, ora como spammers. Este comportamento dual mascara diversos atributos que poderiam diferenciar as duas classes. Futuramente, pretendemos explorar subclasses de spammers para melhorar os resultados da classificação, que são o primeiro esforço na área. A tabela 3 apresenta as métricas globais da classificação de forma a permitir a comparação de resultados futuros com a coleção de testes criada. Métrica Resultado Precisão Média 82.6 Revocação Média 82. Macro F 8.46 Micro F 87. Tabela 3: Visão Geral dos resultados da classificação 6. SIMULAÇÃO Nesta seção simulamos um ambiente de interações através de vídeos para prover respostas iniciais para as seguintes questões: ) Quantos spammers e promotores de vídeos podem afetar o sistema? É improvável que um ou dois usuários consigam comprometer um sistema inteiro, mas e se tivermos % de poluidores no sistema? 2) Quanto de esforço é necessário para spammers afetarem o sistema? 3) Qual o impacto de se remover automaticamente a poluição (usuários ou seus vídeos spam) detectados pelo nosso mecanismo de classificação? Com o intuito de demonstrar a aplicabilidade do mecanismo de detecção de poluição proposto, nós desenvolvemos um simulador em C++ de um sistema de interações via vídeo. A seguir apresentamos a modelagem adotada para a construção do simulador e os resultados obtidos. 6. Modelagem do Sistema Um sistema de interações através de vídeos é composto por um conjunto U de usuários, um conjunto S de vídeos resposta, um conjunto R de vídeos respondidos e uma relação de postagem P, que mantém as associações entre vídeos respondidos, vídeos resposta e usuários. Vamos chamar a ação de enviar um vídeo resposta a um vídeo respondido de postagem. Uma postagem p P é uma tupla [u,s,r] u U, s S e r R. Dizemos que p é considerada spam quando s é um vídeo resposta não relacionado à r na tentativa de promover r ou o próprio s. Vamos considerar a existência de três classes de usuários, definidas pelo conjunto de classes C = {l, s, p}, onde l, s e p representam as classes de usuários legítimos, spammers e promotores de vídeos, respectivamente. Assumimos que todos os usuários da classe c C possuem a mesma probabilidade p c de postar um vídeo spam. Por simplicidade assumimos que S R =. Cada usuário u U possui uma lista de vídeos resposta S(u) S S(u). Da mesma forma, cada vídeo respondido r R possui uma lista de vídeos resposta S(r) S. Os usuários donos de vídeos respondidos não são modelados em sistema. Para simular a aplicação do algoritmo de classificação, definimos, para cada usuário, uma classe prevista pelo mecanismo de detecção de poluidores, além da classe real. A partir da classe prevista, mecanismos de remoção de poluição podem ser aplicados. Sendo assim, usuários podem ser dividos em nove conjuntos de acordo com suas classes previstas e reais. Dizemos que o usuário u U ij i, j C se, e somente se, u é da classe i e foi classificado como da classe j. Para i = j temos a situação em que a classificação foi feita corretametne. Note que U = S U ij i, j C. Os passos básicos para a simulação do nosso sistema são: ) criar o conjunto de usuários U; 2) gerar as relações de postagem P ; e 3) aplicar mecanismos de remoção de poluição no sistema; sumarizados no algoritimo 2. O primeiro laço (linhas 2. a 2.3) define a porcentagem de usuários em cada classe. Neste caso, p c C, é um dos parâmetros do simulador. A tabela 4 mostras os valores padrão, extraídos da coleção de testes. O segundo laço (linhas 2.4 a 2.7) cria cada usuário definindo sua classe verdadeira, sua classe prevista e o número de vídeos resposta que cada usuário postará. A classe prevista é definida a partir da matriz de confusão da tabela 2. Os números da matriz de confusão definem a probabilidade de usuários da classe i serem classificados como usuários da classe j, sendo i, j C. Em outras palavras, utilizamos as porcentagens da matriz de confusão como probabilidades de inserção de usuários nos nove conjuntos U ij i, j C. A definição de S(u) é feita a partir de dados reais extraídos da coleção de testes. Ao invés de fixar um valor médio por classe, utilizamos as distribuições de números de vídeos resposta de cada classe ilustradas na figura 4 (esquerda). Promotores de vídeo são bem mais agressivos do que os demais usuários, seguidos de spammers e usuários legítimos. O simulador armazena essas distribuições em forma de percentis, de forma a definir S(u) seguindo a mesma distribuição dos dados da coleção de teste. No terceiro laço (linha 2.8 a 2.4) todos os usuários postam seus vídeos resposta de acordo com as características de cada classe. Para selecionar o vídeo a ser respondido (linha 2.), utilizamos mecanismos diferentes de acordo com a classe dos usuários. s e legítimos escolhem o vídeo respondido, r, de acordo com a probabilidade de cada vídeo r R receber postagens. Essa probabilidade é definida a partir dos dados reais ilustrados na figura 4

7 % Acumulada 2. foreach Classe c do 2.2 defina porcentagem de usuários em cada classe (p c); 2.3 end 2.4 foreach Usuário u U faça do 2.5 defina classe prevista de u; 2.6 defina S(u) ; 2.7 end 2.8 foreach Usuário u U faça do 2.9 foreach Vídeo Resposta s S(u) faça do 2. defina se s é poluição ou não de acordo com p c e c de u; 2. selecione um vídeo respondido r R para receber a postagem p; 2.2 registre p = [u, s, r]: usuário u envia s como resposta a r; 2.3 end 2.4 end remoção de poluidores detectados ou de seus vídeos spam Algoritmo 2: Esboço do Simulador Número de respostas postadas Prob. de receber respostas (cumulativo) Figura 4: Características incorporadas ao simulador (direita). Essa figura mostra o ranking dos vídeos respondidos em termos do número de vídeos resposta. Cada ponto dessa figura é um vídeo respondido e, no eixo y, apresentamos de forma acumulativa a probabilidade do vídeo respondido receber um vídeo resposta. Para simular a promoção de vídeos respondidos, adotamos uma estratégia para os promotores. Para cada promotor de vídeos u, selecionamos um vídeo respondido r (o de menor probabilidade de receber postagens de spammers e legítimos) para ser o vídeo promovido por u. Feito isso, todos os demais vídeos resposta de u são postados para r. Por último, um algoritmo de remoção de usuários ou de seus vídeos pode ser aplicado. Nos experimentos, utilizamos o número de usuários e de vídeos respondidos de forma a manter a proporção de usuários/vídeo respondido dos dados coletados. A tabela 4 sumariza os valores padrão utilizados nos experimentos. 6.2 Métrica Para avaliarmos a poluição no sistema causada por spammers e promotores de vídeos, precisamos de uma métrica que capture não só a porcentagem de vídeos poluídos em cada tópico (vídeo respondido), mas também que considera o ranking em termos de número de vídeos resposta recebidos pelo vídeo respondido. Isso porque vídeos poluídos em tópicos que geram longas discussões atingem SÍMBOLO DESCRIÇÃO VALOR U # de usuários 2.6 R # de vídeos respondidos 3.8 p legtimo prob. de legítimos postarem poluição p spammer prob. de spammers postarem poluição.2 p promotor prob. de promotores postarem poluição.99 Tabela 4: Parâmetros utilizados nos experimentos Rank um maior número de usuários finais e comprometem tópicos de discussão populares. Por outro lado, quando promotores promovem um vídeo a uma lista de mais discutidos com tamanho limitado, um vídeo discutido apenas por usuários legítimos deixa de entrar para essa lista. Nesse contexto, propomos uma métrica que considera tanto o ranking do vídeo respondido quanto a fração de vídeos poluídos postados como resposta ao vídeo respondido. Chamamos essa métrica de nível de poluição (P L), definida da seguinte forma. Considere uma seqüência de vídeos respondidos R = {r, r 2, r i,...}, ordenada de forma decrescente pelo número de vídeos resposta recebidos de r i, S(r i). O nível de poluição, PL, é dado por: PL = P R i= p(ri) i P R i= i onde i é o ranking do vídeo respondido r i R e p(r i) é a fração de vídeos resposta poluído de r i. Esta métrica é afetada tanto pelo número de vídeos poluídos no sistema quanto pela posição no ranking do vídeo respondido. O denominador da fórmula serve apenas para normalizar a métrica entre e. Outras métricas, como a porcentagem de vídeos poluídos no sistema, não são discutidas na seção seguinte porque não oferecem informações adicionais. 6.3 Resultados Spam em outros sistemas, tais como e blogs, cresceu rapidamente ao longo dos anos [3, 8]. Como um exemplo, de 23 para 25, o tráfego de spam cresceu de 24% para 83% do total de tráfego de s [8]. Dado o recente crescimento de vídeos na Web, é natural questionarmos sobre a efetividade da nossa abordagem em um ambiente com um número muito maior de poluidores. Nessa seção discutimos a aplicabilidade da nossa abordagem em diferentes cenários. Todos os resultados apresentados são média de 3 execuções e, com 95% de confiança, nenhum resultado difere da média em mais do que 4%. Inicialmente, estudamos o impacto do número de usuários poluidores no sistema. As figuras 5 (esquerda) e (centro) mostram gráficos onde aumentamos a porcentagem de usuários em cada classe e medimos o nível de poluição no sistema. Ao variarmos o número de spammers, fixamos o número de promotores em e, da mesma forma, ao variarmos o número de promotores, fixamos o número de spammers em. Podemos notar que uma pequena porcentagem de spammers não é suficiente para causar muito impacto no nível de poluição do sistema (ex. PL =.6 para 5% de U ). Entretanto, um nível de poluição elevado pode ser observado quando aumentamos a população de spammers (ex. PL=.7 para 3% de U ). Por outro lado, o nível de poluição no sistema causado por promotores de vídeos é alto, mesmo para pequenas proporções desses usuários no sistema (ex. P L = 2 para 5% de U ). Por concentrarem todos os seus vídeos resposta em um único tópico, um promotor de vídeos eleva o ranking do vídeo respondido postando uma grande quantidade de vídeos spam, concentrando uma grande quantidade de poluição em vídeos com boas posições no ranking. Com o intuíto de avaliar a redução na poluição no sistema, vamos simular a utilização da abordagem de classificação proposta. Acreditamos que nossa estratégia não possa ser utilizada para remoção imediata dos usuários identificados como poluidores, já que ela não está livre de erros. Sendo assim, nossa estratégia pode funcionar como um mecanismo de filtragem para reduzir uma grande quantidade de inspeção manual. Desta forma, em nossa simulação, apenas os usuários detectados pela classificação tiveram seus vídeos poluídos removidos do sistema. Nas figuras 5 (esquerda) e (centro), mostramos o nível de poluição no sistema ao removermos os (2)

8 Nível de Poluição Sem remover Removendo poluição % of Promotores Nível de Poluição Sem remover Removendo poluição % of s Nível de Poluição % spammers 3% spammers % spammers Prob. de Postar Vídeo Spam Figura 5: Impacto do número de promotores (esq.) e spammers (meio) no sistema. Impacto do esforço de spammers no sistema (dir.) vídeos poluídos dos usuários detectados como spammers ou promoters. De maneira geral, podemos notar que, uma redução significativa no nível de poluição ao removermos os vídeos poluídos dos usuários classificados como spammers ou promotores. Entretanto, para um sistema com uma porcentagem muito grande de promoters, uma pequena fração de promoters não detectada (cerca de 3.23%) pelo algoritmo de classificação é suficiente para poluir o sistema. No caso dos spammers, apesar de reduzida a poluição no sistema, ela continua alta para grandes frações de spammers devido à dificuldade do algoritmo de detectar spammers. Por último, ao inspecionarmos os usuários da nossa base, notamos que existem spammers que postam somente vídeos poluídos e também a existência de spammers que postam vídeos não relacionados, mas sem intenção de poluir o sistema, contribuindo também com vídeos legítimos. Sendo assim, vamos investigar o nível de poluição no sistema quando spammers postam diferentes frações de vídeos poluídos. A figura 5 (direita) mostra o nível de poluição no sistema como uma função da probabilidade de um spammer postar um vídeo poluído para um sistema com %, 3% e 5% de spammers (o restante dos usuários são legítimos). Com % de spammers, seja qual for a porcentagem de vídeos poluído entre os vídeos postados, não temos um nível alto de poluição no sistema (no máximo PL =. quando 9% dos usuários são spammers). Com 3% e 5% de spammers no sistema, cerca de 7% e 5% de vídeos poluídos postados por spammers são suficientes para atingir um nível de poluição acima de.2. Como trabalhos futuros, pretendemos explorar subclasses de spammers como uma forma de capturar usuários spammers que provocam diferentes níveis de poluição no sistema. 7. CONCLUSÕES E TRABALHOS FUTUROS Nesse trabalho abordamos o problema de detecção de usuários poluidores no YouTube. Para isso foi coletado um componente inteiro do grafo de vídeos resposta do YouTube. Através de inspeção manual, criamos uma coleção de testes com usuários classificados como legítimos, spammers e promotores de vídeos. Nós apresentamos uma caracterização de aspectos que podem ser utilizados para diferenciar usuários desses grupos e aplicamos estes aspectos em um algoritmo de classificação. Nosso mecanismo de detecção de usuários poluidores é capaz de identificar corretamente 97% de promotores, 54% de spammers, errando apenas 5,4% de usuários legítimos. Através de simulação mostramos que uma pequena porcentagem de promotores de vídeos é capaz de elevar o nível de poluição do sistema e discutimos o impacto de se remover usuários poluidores ou seus vídeos poluídos, além avaliarmos outros cenários relacionados ao número de poluidores e seus esforços para poluírem o sistema. Como trabalhos futuros, pretendemos melhorar nosso mecanismo de detecção de poluidores, explorando novos atributos, combinando algoritmos de classificação ou mesmo refinando as classes de usuários que temos em subclasses. Além disso, pretendemos estender nosso simulador para abordar outras questões relacionadas ao impacto de spammers e promotores de vídeos no sistema. 8. REFERÊNCIAS [] F. Benevenuto, F. Duarte, T. Rodrigues, V. Almeida, J. Almeida, and K. Ross. Understanding video interactions in youtube. In Proc. ACM Multimedia (MM), 28. [2] S. Brin and L. Page. The anatomy of a large-scale hypertextual web search engine. In Proc. of Int l World Wide Web Conference (WWW), 998. [3] C. Castillo, D. Donato, A. Gionis, V. Murdock, and F. Silvestri. Know your neighbors: Web spam detection using the web topology. In Int l ACM SIGIR, 27. [4] M. Cha, H. Kwak, P. Rodriguez, Y. Ahn, and S. Moon. I tube, you tube, everybody tubes: Analyzing the world s largest user generated content video system. In Proc. Internet Measurement Conference (IMC), 27. [5] S. Dorogovtsev and J. Mendes. Evolution of Networks: from Biological Nets to the Internet and WWW. Oxford University Press, 23. [6] R. Fan, P. Chen, and C. Lin. Working set selection using the second order information for training svm. Journal of Machine Learning Research (JMLR), 6, 25. [7] P. Gill, M. Arlitt, Z. Li, and A. Mahanti. Youtube traffic characterization: A view from the edge. In Proc. Internet Measurement Conference (IMC), 27. [8] L. Gomes, J. Almeida, V. Almeida, and W. Meira. Workload models of spam and legitimate s. Performance Evaluation, 64, 27. [9] L. Gomes, F. Castro, V. Almeida, J. Almeida, R. Almeida, and L. Bettencourt. Improving spam detection based on structural similarity. In Proc. SRUTI, 25. [] P. Heymann, G. Koutrika, and H. Garcia-Molina. Fighting spam on social web sites: A survey of approaches and future challenges. IEEE Internet Computing,, 27. [] R. Kohavi and F. Provost. Glossary of terms. Special Issue on Applications of Machine Learning and the Knowledge Discovery Process, Machine Learning, 3, 998. [2] G. Koutrika, F. Effendi, Z. Gyöngyi, P. Heymann, and H. Garcia-Molina. Combating spam in tagging systems. In Proc. AIRWeb, 27. [3] Y. Lin, H. Sundaram, Y. Chi, J. Tatemura, and B. Tseng. Detecting splogs via temporal dynamics using self-similarity analysis. ACM Transactions on the Web (TWeb), 2, 28. [4] M. Shannon. Shaking hands, kissing babies, and...blogging? Communications of the ACM, 5, 27. [5] I. Tsochantaridis, T. Joachims, T. Hofmann, and Y. Altun. Large margin methods for structured and interdependent output variables. Journal of Machine Learning Research (JMLR), 6, 25. [6] Y. Yang. An evaluation of statistical approaches to text categorization. Information Retrival,, 999.