Workload Characterization Practical Examples

Workload Characterization Practical Examples 1. Analyzing Client Interactivity in Streaming Media, C. Costa et al., Proc. WWW 2004 2. A Characterization of Broadband User Behavior and their E- business Activities, H. Marques-Neto et al., ACM SIGMETRICS PERFORMANCE EVALUATION REV. 32(3), Dec. 2004 3. Detecting Spammers and Content Promoters in Online Video Social Networks, F. Benevenuto et al., Proc. ACM SIGIR 2009 4. Evidence of Quality of Textual Features on the Web 2.0, F. Figueiredo et al., Proc ACM CIKM 2009

Distribution of File Segment Access Frequencies

Youtube Maior rede social de compartilhamento de vídeos do mundo Vídeo Resposta permite uma interação entre os usuários através de vídeos um vídeo só pode ser resposta para um único outro vídeo em determinado momento

Poluição Vídeo Poluído vídeo resposta cujo conteúdo é completamente não relacionado ao assunto do vídeo respondido Usuários Poluidores: agem maliciosamente na tentativa de divulgar conteúdo Spammer promover o vídeo resposta: propagandas, pornografia, etc Promotor de vídeos promover o tópico: em geral vários vídeos respostas postados automaticamente

Exemplos de Spammers Pornografia Propaganda Poluição

Exemplos de Promotores Promoção

Objetivo É possível detectar uma fração significativa dos usuários poluidores (spammers e/ou promotores) de forma automatizada?

Abordagem Metodológica 1. Criação de uma coleção de testes com spammers, promotores de vídeos e usuários legítimos desafio: subjetividade para definição de vídeo poluído 2. Identificação de atributos capazes de distinguir usuários poluidores de usuários legítimos foco na detecção do usuário poluidor e não do vídeo poluído 3. Proposição de um mecanismo de detecção de usuários poluidores baseado nos atributos identificados baseado em uma algoritmo de classificação estado-daarte

Coleta dos Dados Objetivo: coletar usuários que participam de interações através de vídeos respostas Abordagem: coletar um componente fracamente conectado inteiro segue as duas direções: vídeos respostas e vídeos respondidos essencial para o cálculo de diversas métricas de redes sociais

Arquitetura do Coletor Clientes coletam dados do YouTube Servidor coordena clientes para evitar coletas redundantes Sementes: 100 usuários donos dos vídeos mais respondidos do YouTube Foram coletadas em 7 dias (de 11 a 18 de janeiro de 2008): 701.950 vídeos respostas 381.616 vídeos respondidos 264.460 usuários (completando um componente inteiro)

Coleção de Testes 1. Usuários com diferentes níveis de atividades 400 usuários selecionados aleatoriamente das 4 regiões do gráfico ao lado 2. Busca manual por poluidores (promotores) busca por suspeitos na lista dos vídeos mais respondidos do YouTube 153 usuários suspeitos encontrados 3. 300 usuários selecionados aleatoriamente entre os que responderam aos vídeos mais respondidos reduzir algum possível viés introduzido pela estratégia 2 Total: 855 usuários 641 legítimos 157 spammers 31 promotores de vídeos 26 suspensos

Características dos Usuários Vídeo-respostas e Vídeo Respondidos Vídeos exibidos, em média, mais de 100 vezes: 97% dos usuários legítimos 90% dos spammers 4% dos promotores de vídeos

Características dos Usuários Vídeo respondidos Promotores visam vídeos com poucas avaliações enquanto spammers visam vídeos mais bem avaliados Legítimos representam um meio termo

Características dos Usuários Possuem mais que 10 amigos: 75% dos usuários legítimos 49% dos spammers e somente 7% dos promotores de vídeos

Características dos Usuários Usuários legítimos têm um UserRank mais alto do que spammers; Spammers têm UserRank mais alto do que promotores de vídeos

Detecção de Poluidores Mecanismo de detecção de poluidores Abordagem de aprendizagem de máquina (inteligência artificial) para classificação dos usuários SVM (Support Vector Machine) Algoritmo de classificação bastante conhecido por seu desempenho competitivo com o estado da arte

Detecção de Poluidores Atributos (60 no total) Usuários número de vídeos, amigos, vídeos assistidos, vídeos adicionados como favoritos, vídeos respostas enviados e recebidos, total de inscrições e inscritos, número máximo de vídeos enviados em um dia Vídeos média e total para 3 grupos: todos os vídeos do usuário, apenas os vídeos respostas e todos os vídeos alvos duração, número de exibições, avaliações, comentários, favoritos, menções honrosas e elos externos Redes Sociais coeficiente de clusterização, UserRank, betweeness, reciprocidade e assortatividade

Detecção de Poluidores Com 95% de confiança, nenhum resultado difere da média em mais de 6%

Motivation Web 2.0 Huge amounts of multimedia content Information Retrieval Mainly focused on text (i.e. Tags) User generated content No guarantee of quality How good are these textual features for IR?

User Generated Content

Textual Features

Textual Features Multimedia Object

Textual Features TITLE Multimedia Object

Textual Features TITLE DESCRIPTION Multimedia Object

Textual Features TITLE DESCRIPTION Multimedia Object TAGS

Textual Features TITLE DESCRIPTION Multimedia Object TAGS COMMENTS

Textual Features TITLE Textual Features DESCRIPTION TAGS COMMENTS

Research Goals Characterize evidence of quality of textual features Usage Amount of content Descriptive capacity Discriminative capacity

Research Goals Characterize evidence of quality of textual features Usage Amount of content Descriptive capacity Discriminative capacity Analyze the quality of features for different IR services (object classification and tag recommendation)

Applications/Features Applications Textual Features Title Tags Descriptions Comments

Data Collection June / September / October 2008 CiteULike - 678,614 Scientific Articles LastFM - 193,457 Artists Yahoo Video! - 227,252 Objects YouTube - 211,081 Objects Object Classes Yahoo Video! And YouTube - Readily Available LastFM - AllMusic Website (~5K artists)

Textual Feature Usage Percentage of objects with empty features (zero terms) TITLE TAG DESC. COMM. CiteULike 0.53% 8.26% 51.08% 99.96% LastFM 0.00% 18.88% 53.52% 53.38% YahooVid. 0.15% 16.00% 1.17% 96.88% Youtube 0.00% 0.06% 0.00% 23.36% Restrictive Collaborative Restrictive features more present Tags can be absent in 16% of content

Amount of Content Vocabulary size (average number of unique stemmed terms) per feature TITLE TAG DESC. COMM. CiteULike 7.5 4.0 65.2 51.9 LastFM 1.8 27.4 90.1 110.2 YahooVid. 6.3 12.8 21.6 52.2 Youtube 4.6 10.0 40.4 322.3 Restrictive Collaborative TITLE < TAG < DESC < COMMENT Similar findings for distributions

Amount of Content Vocabulary size (average number of unique stemmed terms) per feature TITLE TAG DESC. COMM. CiteULike 7.5 4.0 65.2 51.9 LastFM 1.8 27.4 90.1 110.2 YahooVid. 6.3 12.8 21.6 52.2 Youtube 4.6 10.0 40.4 322.3 Restrictive Collaborative Collaboration can increase vocabulary size Similar findings for distributions

Descriptive Capacity Term Spread (TS) TS(DOLLS) =2

Descriptive Capacity Term Spread (TS) TS(DOLLS) =2 TS(PUSSYCAT) =2

Descriptive Capacity Feature Instance Spread (FIS) TS(DOLLS) =2 TS(PUSSYCAT) =2 FIS(TITLE) = (TS(DOLLS) + TS(PUSSYCAT)) / 2 = 4/2 = 2

Descriptive Capacity Average Feature Spread (AFS) Given by the average FIS across the collection TITLE TAG DESC. COMM. CiteULike 1.91 1.62 1.12 - LastFM 2.65 1.32 1.21 1.20 YahooVid. 2.26 1.86 1.51 - Youtube 2.53 2.07 1.72 1.12 TITLE > TAG > DESC > COMMENT

Discriminative Capacity Inverse Feature Frequency (IFF) Based on Inverse Document Frequency (IDF)

Discriminative Capacity Inverse Feature Frequency (IFF) Youtube Bad Discriminator video

Discriminative Capacity Inverse Feature Frequency (IFF) Youtube Bad Discriminator video Good. music

Discriminative Capacity Inverse Feature Frequency (IFF) Youtube Bad Discriminator video Good. music Great. CIKM Noise. v1d30

Discriminative Capacity Average Inverse Feature Frequency (AIFF) Average of IFF across the collection TITLE TAG DESC. COMM. CiteULike 7.31 7.59 7.02 - LastFM 6.64 6.00 5.83 5.90 YahooVid. 6.67 6.54 6.37 - Youtube 7.12 7.00 7.73 6.64 (TITLE or TAG) > DESC > COMMENT

Several Other Analyses Correlation between each metric of quality and object popularity Is feature quality higher in more popular objects? Correlation between different quality metrics of the same object Do features that carry more content tend to have higher descriptive power? Do features that have higher descriptive power also have higher discriminative power? Content and information similarity across multiple features of the same object

Research Goals Characterize evidence of quality of textual features Usage Amount of content Descriptive capacity Discriminative capacity Analyze the quality of features for different IR services (object classification and tag recommendation)

Object Classes

Classification: Results Tag seems best single feature: good combination of amount of content and discriminative power Title suffers with small amount of content, despite good discriminative and descriptive powers Tag recommendation: Title is best feature: best descriptive power New tag recommendation strategies that exploit descriptive power (TS) metrics: outperform various baselines (state-of-the-art)