Workload Characterization Practical Examples

Documentos relacionados
Workload Characterization Practical Examples

Detectando Usuários Maliciosos em Interações via Vídeos no YouTube

Uma Análise Empírica de Interações em Redes Sociais

Sistemas de Recomendação o que, quando, onde, como você quer, e nem sabia

A Tool to Evaluate Stuck-Open Faults in CMOS Logic Gates

MASTER S DEGREE IN INTELLECTUAL PROPERTY ADMISSION EXAM

GreenWeb: Melhorando a Qualidade da Informação na Web 2.0

Avaliação de Desempenho de SRI

Pesquisa Qualitativa do Início ao Fim (Métodos de Pesquisa) (Portuguese Edition)

Redes Complexas Aula 3

Inválido para efeitos de certificação

Descoberta de conhecimento em redes sociais e bases de dados públicas

PROCESSAMENTO DE TEXTO

Métodos Quantitativos para Ciência da Computação Experimental

Rickson Guidolini Orientador: Nivio Ziviani Co-orientador: Adriano Veloso

Estudo Comparativo de Estratégias de Classificação de Páginas Web

detecção de voz cantada em sinais de áudio polifônicos

Um Método para Melhoria de Dados Estruturados de Imóveis

Mineração de Textos na Web

Tópicos Especiais em IA: Introdução a Teoria dos Jogos

Análise e Modelagem de Desempenho de Sistemas de Computação. Profa. Jussara M. Almeida 1 o Semestre de 2011

Redes de Telecom Evolução e Tendências

EVIDÊNCIAS DE QUALIDADE DE ATRIBUTOS TEXTUAIS NA WEB 2.0

Software Testing with Visual Studio 2013 (20497)

As 100 melhores piadas de todos os tempos (Portuguese Edition)

Computação social é uma área da ciência da computação que se preocupa com a intersecção de comportamento social e sistemas computacionais.

Técnicas de recuperação de informação: filtragem, agrupamento

UNIVERSIDADE FEDERAL DE GOIÁS. Tainacan. Social Module

Detecção de Réplicas de Sítios Web Usando Aprendizado Semi-supervisionado baseado em Maximização de Expectativas. Cristiano Rodrigues de Carvalho

Bruno de Figueiredo Melo e Souza. Modelos de fatoração matricial para recomendação de vídeos. Dissertação de Mestrado

COBERTURA DE ÁREA COOPERATIVA UTILIZANDO SEGMENTAÇÃO HEXAGONAL

Gestão de Pessoas: o Novo Papel dos Recursos Humanos nas Organizações (Portuguese Edition)

PROGRAMA DE POLÍTICAS PÚBLICAS E MODELOS DE ATENÇÃO E GESTÃO À SAÚDE

Public transport in a small island of a developing country 1, 2

Pesquisa e Extração de Informação de Grupos de Discussão na Web

Serviços: API REST. URL - Recurso

Erros que os Pregadores Devem Evitar (Portuguese Edition)

ESCOLA NAVAL DEPARTAMENTO DE ARMAS E ELETRÓNICA

Deep Learning na Detecção de Posicionamento em Notícias Online

Aprendizado de Máquina para o Problema de Sentiment Classification

Vaporpunk - A fazenda-relógio (Portuguese Edition)

Tutorial para atualização de notícias/blog

UNIVERSIDADE FEDERAL DE GOIÁS INSTITUTO DE INFORMÁTICA. Sistemas Distribuídos

Detecção de Posicionamento no contexto de Fake News

MySQL: Comece com o principal banco de dados open source do mercado (Portuguese Edition)

Biscuit - potes (Coleção Artesanato) (Portuguese Edition)

Convite - Comitê de Programa. Sistema EasyChair. Informações Sobre o Convite. Clicando no Link... Respondendo ao Convite. Informações Sobre o Convite

Design de Multimédia e Interacção

Futurecom 2016 Painel Automotivo Veículos como futuros integradores de serviços digitais.

Prova de Seleção Mestrado LINGUA INGLESA 15/02/2016

CÂMARA ALEMÃ INTERNET DAS COISAS. Ivan Silva Fevereiro de Software AG. All rights reserved.

O guia do enxoval do bebê nos Estados Unidos: Dicas e segredos da maior especialista de compras em Miami, Orlando e Nova York (Portuguese Edition)

PL/SQL: Domine a linguagem do banco de dados Oracle (Portuguese Edition)

Silvano Nogueira Buback. Utilizando aprendizado de máquina para construção de uma ferramenta de apoio a moderação de comentários

Comportamento Organizacional: O Comportamento Humano no Trabalho (Portuguese Edition)

Como deixar seus cabelos lindos e saudáveis (Coleção Beleza) (Portuguese Edition)

Biscuit - potes (Coleção Artesanato) (Portuguese Edition)

MICROINSURANCE IN BRAZIL

Ficha de Unidade Curricular (FUC) de Inglês Aplicado às Ciências Empresariais III

Sistemas de Recomendação Uma abordagem geral

English version at the end of this document

Antonio Moreira Franco Junior. Click here if your download doesn"t start automatically

Alfabetização digital: o uso efetivo das tecnologias de informação e comunicação

Brand Presentation. media kit A Marca. Principais Caraterísticas MAIN FEATURES

Desafio Multimédia. Geoparque Açores - Sabores, aromas e experiências. Regulamento

NCE/15/00213 Decisão de apresentação de pronúncia - Novo ciclo de estudos

Future Trends: Global Perspective. Christian Kjaer Chief Executive Officer European Wind Energy Association

INVESTIGAÇÃO DA PRODUÇÃO CIENTÍFICA RELACIONADA AO CUSTEIO-META E CUSTEIO KAIZEN NO PERÍODO DE 2002 A 2009

egovernment The Endless Frontier

INF 1771 Inteligência Artificial

English version at the end of this document

Networks in Their Surrounding Contexts. Ana Paula Fabrício Benevenuto

Wiki::Score A Collaborative Environment For Music Transcription And Publishing

A Prática Reflexiva no Oficio de Professor. Profissionalização e Razão Pedagógica (Em Portuguese do Brasil)

Chapter 4: Unsupervised Learning

MARCO CIVIL DA INTERNET

Edu. A Practical Solution to Detect DoS/DDoS Attacks. Subredu Manuel, Octavian Rusu, Vraciu Valeriu. Subredu Manuel, Octavian Rusu, Vraciu Valeriu

Base de Dados Multimédia Inteligentes

eposters evita impressões avoid printing reduz a pegada ecológica reduce the ecological footprint

Aprendizagem de Máquina

Redes Neurais (Inteligência Artificial)

Esboços e Sermões Completos para Ocasiões e Datas Especiais: Mensagens Bíblicas para Todas as Datas da Vida Cristã (Portuguese Edition)

Kleder Miranda Gonçalves. Um Framework para Comunicação Baseada em Localização. Dissertação de Mestrado

ASIP Conference 2007

O REGULAMENTO DA III MOSTRA AUDIOVISUAL DO CEET VASCO COUTINHO

CANape/vSignalyzer. Data Mining and Report Examples Offline Analysis V

English version at the end of this document

GERENCIAMENTO DA ROTINA DO TRABALHO DO DIA-A-DIA (EM PORTUGUESE DO BRASIL) BY VICENTE FALCONI

Modelagem de Processos com BPMN (2ª edição) (Portuguese Edition)

Revisão Sistemática: Conceitos Básicos

A dança do corpo vestido: Um estudo do desenvolvimento do figurino de balé clássico até o século XIX (Portuguese Edition)

Scientific data repositories: the USP experience

Inflation Expectations and Behavior: Do Survey Respondents Act on their Beliefs? O. Armantier, W. Bruine de Bruin, G. Topa W. VanderKlaauw, B.

Monitoramento de Redes Sem-fio. de Redes Sem-fio. State of the Art. Trace Selection for Improved WLAN Monitoring. State of the Art.

Você e a Astrologia - Peixes (Portuguese Edition)

GERENCIAMENTO PELAS DIRETRIZES (PORTUGUESE EDITION) BY VICENTE FALCONI

OPTICAL IMAGE SYNTHESIS FOR CLOUD REMOVAL WITH GENERATIVE ADVERSARIAL NETWORKS

Treinamento em Análise Quantitativa & Planejamento de Capacidade. Virgilio A. F. Almeida

Transcrição:

Workload Characterization Practical Examples 1. Analyzing Client Interactivity in Streaming Media, C. Costa et al., Proc. WWW 2004 2. A Characterization of Broadband User Behavior and their E- business Activities, H. Marques-Neto et al., ACM SIGMETRICS PERFORMANCE EVALUATION REV. 32(3), Dec. 2004 3. Detecting Spammers and Content Promoters in Online Video Social Networks, F. Benevenuto et al., Proc. ACM SIGIR 2009 4. Evidence of Quality of Textual Features on the Web 2.0, F. Figueiredo et al., Proc ACM CIKM 2009

Workload Characterization Practical Examples 1. Analyzing Client Interactivity in Streaming Media, C. Costa et al., Proc. WWW 2004 2. A Characterization of Broadband User Behavior and their E- business Activities, H. Marques-Neto et al., ACM SIGMETRICS PERFORMANCE EVALUATION REV. 32(3), Dec. 2004 3. Detecting Spammers and Content Promoters in Online Video Social Networks, F. Benevenuto et al., Proc. ACM SIGIR 2009 4. Evidence of Quality of Textual Features on the Web 2.0, F. Figueiredo et al., Proc ACM CIKM 2009

Distribution of File Segment Access Frequencies

Workload Characterization Practical Examples 1. Analyzing Client Interactivity in Streaming Media, C. Costa et al., Proc. WWW 2004 2. A Characterization of Broadband User Behavior and their E- business Activities, H. Marques-Neto et al., ACM SIGMETRICS PERFORMANCE EVALUATION REV. 32(3), Dec. 2004 3. Detecting Spammers and Content Promoters in Online Video Social Networks, F. Benevenuto et al., Proc. ACM SIGIR 2009 4. Evidence of Quality of Textual Features on the Web 2.0, F. Figueiredo et al., Proc ACM CIKM 2009

Workload Characterization Practical Examples 1. Analyzing Client Interactivity in Streaming Media, C. Costa et al., Proc. WWW 2004 2. A Characterization of Broadband User Behavior and their E- business Activities, H. Marques-Neto et al., ACM SIGMETRICS PERFORMANCE EVALUATION REV. 32(3), Dec. 2004 3. Detecting Spammers and Content Promoters in Online Video Social Networks, F. Benevenuto et al., Proc. ACM SIGIR 2009 4. Evidence of Quality of Textual Features on the Web 2.0, F. Figueiredo et al., Proc ACM CIKM 2009

Youtube Maior rede social de compartilhamento de vídeos do mundo Vídeo Resposta permite uma interação entre os usuários através de vídeos um vídeo só pode ser resposta para um único outro vídeo em determinado momento

Poluição Vídeo Poluído vídeo resposta cujo conteúdo é completamente não relacionado ao assunto do vídeo respondido Usuários Poluidores: agem maliciosamente na tentativa de divulgar conteúdo Spammer promover o vídeo resposta: propagandas, pornografia, etc Promotor de vídeos promover o tópico: em geral vários vídeos respostas postados automaticamente

Exemplos de Spammers Pornografia Propaganda Poluição

Exemplos de Promotores Promoção

Objetivo É possível detectar uma fração significativa dos usuários poluidores (spammers e/ou promotores) de forma automatizada?

Abordagem Metodológica 1. Criação de uma coleção de testes com spammers, promotores de vídeos e usuários legítimos desafio: subjetividade para definição de vídeo poluído 2. Identificação de atributos capazes de distinguir usuários poluidores de usuários legítimos foco na detecção do usuário poluidor e não do vídeo poluído 3. Proposição de um mecanismo de detecção de usuários poluidores baseado nos atributos identificados baseado em uma algoritmo de classificação estado-daarte

Coleta dos Dados Objetivo: coletar usuários que participam de interações através de vídeos respostas Abordagem: coletar um componente fracamente conectado inteiro segue as duas direções: vídeos respostas e vídeos respondidos essencial para o cálculo de diversas métricas de redes sociais

Arquitetura do Coletor Clientes coletam dados do YouTube Servidor coordena clientes para evitar coletas redundantes Sementes: 100 usuários donos dos vídeos mais respondidos do YouTube Foram coletadas em 7 dias (de 11 a 18 de janeiro de 2008): 701.950 vídeos respostas 381.616 vídeos respondidos 264.460 usuários (completando um componente inteiro)

Coleção de Testes 1. Usuários com diferentes níveis de atividades 400 usuários selecionados aleatoriamente das 4 regiões do gráfico ao lado 2. Busca manual por poluidores (promotores) busca por suspeitos na lista dos vídeos mais respondidos do YouTube 153 usuários suspeitos encontrados 3. 300 usuários selecionados aleatoriamente entre os que responderam aos vídeos mais respondidos reduzir algum possível viés introduzido pela estratégia 2 Total: 855 usuários 641 legítimos 157 spammers 31 promotores de vídeos 26 suspensos

Características dos Usuários Vídeo-respostas e Vídeo Respondidos Vídeos exibidos, em média, mais de 100 vezes: 97% dos usuários legítimos 90% dos spammers 4% dos promotores de vídeos

Características dos Usuários Vídeo respondidos Promotores visam vídeos com poucas avaliações enquanto spammers visam vídeos mais bem avaliados Legítimos representam um meio termo

Características dos Usuários Possuem mais que 10 amigos: 75% dos usuários legítimos 49% dos spammers e somente 7% dos promotores de vídeos

Características dos Usuários Usuários legítimos têm um UserRank mais alto do que spammers; Spammers têm UserRank mais alto do que promotores de vídeos

Detecção de Poluidores Mecanismo de detecção de poluidores Abordagem de aprendizagem de máquina (inteligência artificial) para classificação dos usuários SVM (Support Vector Machine) Algoritmo de classificação bastante conhecido por seu desempenho competitivo com o estado da arte

Detecção de Poluidores Atributos (60 no total) Usuários número de vídeos, amigos, vídeos assistidos, vídeos adicionados como favoritos, vídeos respostas enviados e recebidos, total de inscrições e inscritos, número máximo de vídeos enviados em um dia Vídeos média e total para 3 grupos: todos os vídeos do usuário, apenas os vídeos respostas e todos os vídeos alvos duração, número de exibições, avaliações, comentários, favoritos, menções honrosas e elos externos Redes Sociais coeficiente de clusterização, UserRank, betweeness, reciprocidade e assortatividade

Detecção de Poluidores Com 95% de confiança, nenhum resultado difere da média em mais de 6%

Workload Characterization Practical Examples 1. Analyzing Client Interactivity in Streaming Media, C. Costa et al., Proc. WWW 2004 2. A Characterization of Broadband User Behavior and their E- business Activities, H. Marques-Neto et al., ACM SIGMETRICS PERFORMANCE EVALUATION REV. 32(3), Dec. 2004 3. Detecting Spammers and Content Promoters in Online Video Social Networks, F. Benevenuto et al., Proc. ACM SIGIR 2009 4. Evidence of Quality of Textual Features on the Web 2.0, F. Figueiredo et al., Proc ACM CIKM 2009

Motivation Web 2.0 Huge amounts of multimedia content Information Retrieval Mainly focused on text (i.e. Tags) User generated content No guarantee of quality How good are these textual features for IR?

User Generated Content

User Generated Content

User Generated Content

Textual Features

Textual Features Multimedia Object

Textual Features TITLE Multimedia Object

Textual Features TITLE DESCRIPTION Multimedia Object

Textual Features TITLE DESCRIPTION Multimedia Object TAGS

Textual Features TITLE DESCRIPTION Multimedia Object TAGS COMMENTS

Textual Features TITLE Textual Features DESCRIPTION TAGS COMMENTS

Research Goals Characterize evidence of quality of textual features Usage Amount of content Descriptive capacity Discriminative capacity

Research Goals Characterize evidence of quality of textual features Usage Amount of content Descriptive capacity Discriminative capacity Analyze the quality of features for different IR services (object classification and tag recommendation)

Applications/Features Applications Textual Features Title Tags Descriptions Comments

Data Collection June / September / October 2008 CiteULike - 678,614 Scientific Articles LastFM - 193,457 Artists Yahoo Video! - 227,252 Objects YouTube - 211,081 Objects Object Classes Yahoo Video! And YouTube - Readily Available LastFM - AllMusic Website (~5K artists)

Research Goals Characterize evidence of quality of textual features Usage Amount of content Descriptive capacity Discriminative capacity

Textual Feature Usage Percentage of objects with empty features (zero terms) TITLE TAG DESC. COMM. CiteULike 0.53% 8.26% 51.08% 99.96% LastFM 0.00% 18.88% 53.52% 53.38% YahooVid. 0.15% 16.00% 1.17% 96.88% Youtube 0.00% 0.06% 0.00% 23.36% Restrictive Collaborative Restrictive features more present Tags can be absent in 16% of content

Research Goals Characterize evidence of quality of textual features Usage Amount of content Descriptive capacity Discriminative capacity

Amount of Content Vocabulary size (average number of unique stemmed terms) per feature TITLE TAG DESC. COMM. CiteULike 7.5 4.0 65.2 51.9 LastFM 1.8 27.4 90.1 110.2 YahooVid. 6.3 12.8 21.6 52.2 Youtube 4.6 10.0 40.4 322.3 Restrictive Collaborative TITLE < TAG < DESC < COMMENT Similar findings for distributions

Amount of Content Vocabulary size (average number of unique stemmed terms) per feature TITLE TAG DESC. COMM. CiteULike 7.5 4.0 65.2 51.9 LastFM 1.8 27.4 90.1 110.2 YahooVid. 6.3 12.8 21.6 52.2 Youtube 4.6 10.0 40.4 322.3 Restrictive Collaborative Collaboration can increase vocabulary size Similar findings for distributions

Research Goals Characterize evidence of quality of textual features Usage Amount of content Descriptive capacity Discriminative capacity

Descriptive Capacity Term Spread (TS) TS(DOLLS) =2

Descriptive Capacity Term Spread (TS) TS(DOLLS) =2 TS(PUSSYCAT) =2

Descriptive Capacity Feature Instance Spread (FIS) TS(DOLLS) =2 TS(PUSSYCAT) =2 FIS(TITLE) = (TS(DOLLS) + TS(PUSSYCAT)) / 2 = 4/2 = 2

Descriptive Capacity Average Feature Spread (AFS) Given by the average FIS across the collection TITLE TAG DESC. COMM. CiteULike 1.91 1.62 1.12 - LastFM 2.65 1.32 1.21 1.20 YahooVid. 2.26 1.86 1.51 - Youtube 2.53 2.07 1.72 1.12 TITLE > TAG > DESC > COMMENT

Research Goals Characterize evidence of quality of textual features Usage Amount of content Descriptive capacity Discriminative capacity

Discriminative Capacity Inverse Feature Frequency (IFF) Based on Inverse Document Frequency (IDF)

Discriminative Capacity Inverse Feature Frequency (IFF) Youtube Bad Discriminator video

Discriminative Capacity Inverse Feature Frequency (IFF) Youtube Bad Discriminator video Good. music

Discriminative Capacity Inverse Feature Frequency (IFF) Youtube Bad Discriminator video Good. music Great. CIKM Noise. v1d30

Discriminative Capacity Average Inverse Feature Frequency (AIFF) Average of IFF across the collection TITLE TAG DESC. COMM. CiteULike 7.31 7.59 7.02 - LastFM 6.64 6.00 5.83 5.90 YahooVid. 6.67 6.54 6.37 - Youtube 7.12 7.00 7.73 6.64 (TITLE or TAG) > DESC > COMMENT

Several Other Analyses Correlation between each metric of quality and object popularity Is feature quality higher in more popular objects? Correlation between different quality metrics of the same object Do features that carry more content tend to have higher descriptive power? Do features that have higher descriptive power also have higher discriminative power? Content and information similarity across multiple features of the same object

Research Goals Characterize evidence of quality of textual features Usage Amount of content Descriptive capacity Discriminative capacity Analyze the quality of features for different IR services (object classification and tag recommendation)

Object Classes

Classification: Results Tag seems best single feature: good combination of amount of content and discriminative power Title suffers with small amount of content, despite good discriminative and descriptive powers Tag recommendation: Title is best feature: best descriptive power New tag recommendation strategies that exploit descriptive power (TS) metrics: outperform various baselines (state-of-the-art)