Detectando Usuários Maliciosos em Interações via Vídeos no YouTube

Tamanho: px
Começar a partir da página:

Download "Detectando Usuários Maliciosos em Interações via Vídeos no YouTube"

Transcrição

1 Detectando Usuários Maliciosos em Interações via Vídeos no YouTube Fabrício Benevenuto Jussara Almeida Tiago Rodrigues Marcos Gonçalves Virgílio Almeida ABSTRACT Various services on the Web 2. offer functions that allow users to post videos as response to a discussion topic. As an example, YouTube allows users to post video responses to an opening video topic. Such a video response can be a polluted video, aiming at increasing the popularity of the discussed topic, disseminating advertisements, distributing pornography or simple degrading the system reputation. Content pollution may compromise user satisfaction with the system since users cannot easily identify polluted content before watching at least a segment of it, consuming system resources, especially bandwidth. This work approaches the problem of detecting the malicious users who post polluted content. To do it, we construct a test collection with users from YouTube. Using attributes of users and videos, we apply a classification algorithm as approach to detect owners of polluted content. Additionally, we build a simulator to verify the applicability of our approach in different scenarios. RESUMO Vários serviços na Web 2. oferecem funções que permitem usuários postarem vídeos como resposta para tópicos de discussão. Como exemplo, o YouTube permite que usuários postem vídeos como resposta outros vídeos. Esse vídeo resposta pode ser poluído, na tentativa de aumentar a popularidade do tópico discutido, disseminar propagandas, distribuir pornografia ou simplesmente degradar a reputação do sistema. Poluição de conteúdo pode comprometer a satisfação do usuário com o sistema já que usuários não podem facilmente identificar o conteúdo poluído antes de assistir pelo menos um segmento do vídeo, consumindo recursos do sistema, em especial largura de banda. Este trabalho aborda o problema de detectar os usuários maliciosos que postam vídeos poluídos. Para isso, nós construímos uma coleção de testes com usuários do YouTube. Utilizando atributos de usuários e vídeos, nós aplicamos um algoritmo de classificação como abordagem para detectar os usuários donos de conteúdo poluído. Além disso, construímos um simulador para verificar a aplicabilidade da nossa abordagem em diferentes cenários. Categories and Subject Descriptors H.3.5 [Online Information Services]: Web-based services; H.4.m [Information Systems Applications]: Miscellaneous; J.4 [Computer Applications]: Social and behavioral sciences * Fabrício Benevenuto teve o apoio do UOL ( através do Programa UOL Bolsa Pesquisa, processo de número a. General Terms Human Factors, Measurement Keywords social network, video response, video spam, video promotion. INTRODUÇÃO Cada vez mais a Web vem se transformando em um canal para a disseminação de conteúdo multimídia. Parte do sucesso de vídeos na Web é devido à mudança no papel do usuário, que deixou de ser apenas usuário final e passou também a criar e disponibilizar conteúdo. Vários serviços na Web 2. oferecem funções baseadas em vídeos como alternativas para funções que utilizam apenas texto, como revisões e opiniões sobre produtos e propagandas [4]. Em redes sociais de distribuição de vídeos, como o YouTube, milhões de novos vídeos são adicionados todos os dias, sendo que usuários possuem três mecanismos para encontrar vídeos de seus interesses: ) sistemas de busca, 2) listas ordenadas de vídeos e usuários como os mais vistos e os mais discutidos, 3) elos entre usuários ou vídeos. Ao permitir usuários criarem conteúdo, redes sociais de distribuição de vídeos ficam sujeitas a diferentes formas de ações maliciosas e oportunistas []. Chamamos de poluidores, usuários que agem maliciosamente na tentativa de divulgar conteúdo, atacando qualquer uma das três formas mencionadas de divulgação de conteúdo. Como exemplo, um usuário pode postar um vídeo com várias tags populares, porém não relacionadas ao vídeo, na tentativa de enganar o mecanismo de busca [2]. Além disso, usuários podem criar contas falsas para elevar o ranking de um determinado conteúdo, colocando-o em listas de "mais" (ex. mais vistos, mais discutidos) na tentativa de divulgar o conteúdo do vídeo promovido. Por último, usuários podem criar elos entre vídeos na tentativa de divulgar algum conteúdo. Por exemplo, o YouTube oferece uma ferramenta chamada de vídeos resposta. Vídeos resposta permitem que usuários interajam através de vídeos, tendo como ponto de partida um vídeo inicial (vídeo respondido) que abre uma seqüência de vídeos resposta de outros usuários. Usuários podem divulgar o conteúdo de um determinado vídeo (ex. uma propaganda) postando esse vídeo como resposta para um vídeo bastante popular e discutido. Este trabalho aborda a detecção de usuários que realizam os dois últimos tipos de ações maliciosas citadas acima. Chamamos de vídeo poluído, um vídeo cujo conteúdo é completamente não relacionado ao assunto do vídeo respondido e consideramos duas situações em que um vídeo poluído pode ocorrer. A primeira refere-se à situação em que o vídeo resposta tenta promover seu próprio con-

2 teúdo, fazendo propagandas que podem aumentar vendas, disseminando pornografia (muitas vezes como propaganda de um sítio na Web) ou simplesmente na tentativa de comprometer a reputação do sistema. Chamamos os usuários que postam esses vídeos de vídeo spammers. A segunda situação ocorre quando o vídeo resposta visa apenas promover o vídeo respondido, fazendo com que o vídeo respondido fique em evidência por ser um vídeo bastante discutido no sistema. Chamamos de promotores de vídeos os donos desse tipo de vídeo spam. Diferentemente, dos spammers, os promotores de vídeos visam promover o conteúdo do vídeo respondido, postando vários vídeos resposta para colocar um vídeo em listas de mais respondidos, e deixar o vídeo respondido em evidência no sistema. Em geral, essas listas, possuem tamanho limitado e, consequentemente, vídeos promovidos nessas listas tiram o lugar de outros vídeos. Ao invés de identificar o próprio vídeo spam, visamos identificar os usuários poluidores que postaram esses vídeos. Nós propomos um mecanismo que classifica um usuário como spammer, promotor ou legítimo baseado no perfil do usuário, em suas relações sociais na rede, e nas características de seus vídeos. Para isso, construímos um coleção de testes com usuários do YouTube, classificados "manualmente" como legítimos, spammers e promotores. Utilizando-se atributos dos usuários e de seus vídeos, aplicamos um algoritmo de classificação e avaliamos a efetividade da nossa abordagem utilizando os usuários da coleção de testes. Finalmente, construímos um simulador de um sistema de interações via vídeo para avaliarmos a poluição no sistema sob diversas situações e verificar a aplicabilidade do mecanismo de detecção proposto. O restante do trabalho está organizado da seguinte forma. A próxima seção descreve trabalhos relacionados. A seção 3 descreve a estratégia de coleta de dados do YouTube e a construção da coleção de testes. A seção 4 apresenta uma caracterização de alguns atributos que diferenciam usuários na coleção de testes. Em seguida, a seção 5 descreve nossa abordagem para detecção de usuários poluidores. Na seção 6 um ambiente de interações através vídeos é simulado, e, finalmente, a seção 7 oferece conclusões e direções para trabalhos futuros. 2. TRABALHOS RELACIONADOS Mecanismos de detecção de spam e spammers foram amplamente estudados no contexto da Web [3] e [9]. Em particular, um estudo sobre spam em sistemas de tags, um tipo de comportamento malicioso que visa aumentar a visibilidade de um objeto através do mecanismo de busca, foi proposto em [2]. Apesar de aplicável a qualquer sistema que permite usuários associarem tags a vídeos, como o YouTube, o estudo explora essencialmente propriedades de tags e resultados de busca. Sendo assim, nossa abordagem é complementar à desse trabalho, pois visamos combater poluição em outros mecanismos de divulgação de conteúdo. Várias abordagens para combater spam em redes sociais são discutidas em []. Muitas dessas abordagens são baseadas na extração de características do conteúdo do objeto, podendo ser aplicadas a informações textuais, imagens em s, comentários textuais em blogs, fóruns e redes sociais. Entretanto, a classificação de conteúdo de vídeos, uma mídia muito mais rica, é bem mais difícil de ser realizada. Nossa abordagem consiste em classificar os usuários donos de vídeos, ao invés dos próprios vídeos, e explora características tanto de usuários quanto de vídeos na rede. Complementar ao nosso esforço uma análise de distribuições de popularidade, evolução e características do conteúdo do YouTube é apresentada em [4]. Os autores analisam mecanismos de melhorar a distribuição de vídeos, como caches e abordagens par-a-par. Gill et al [7] apresenta uma caracterização do tráfego do YouTube coletado na rede de uma universidade e compara as propriedades do tráfego com outros trabalhos de caracterização de carga para Web e multimídia. Ambos os trabalhos não abordam a identificação de usuários maliciosos no YouTube. Em um trabalho anterior [], estudamos características sociais de uma rede formada por interações através de vídeos resposta no YouTube e verificamos a existência de poluição nessas interações. Em nosso trabalho atual, abordamos o problema identificar sistematicamente os causadores dessa poluição. 3. COLEÇÃO DE VÍDEOS Para classificar usuários como legítimos, spammers ou promotores de vídeos, foram coletados dados do YouTube, uma das mais populares redes sociais de distribuição de vídeos criados pelos usuários. A partir dos dados coletados, construímos uma coleção de testes para avaliar a efetividade do mecanismo de detecção de spammers. Esta seção descreve a coleta de dados e os critérios utilizados na seleção de usuários para a coleção de teste. 3. Coletando o YouTube Nossa estratégia consiste em coletar usuários que participam de interações através de vídeo resposta. Em outras palavras, coletamos uma amostra de usuários que responderam ou foram respondidos com vídeos respostas. Dizemos que um vídeo é um vídeo respondido se ele possui pelo menos um vídeo resposta. Da mesma forma, dizemos que um usuário do YouTube é um usuário respondido se pelo menos um de seus vídeos é um vídeo respondido. Com base nas interações de usuários através de vídeos resposta, definimos o seguinte grafo. Em um dado instante de tempo t, seja X a união de todos os usuários respondidos com os que postaram vídeos resposta. Denotamos como grafo de vídeos resposta o grafo direcionado (X, Y ), onde (x, x 2) é uma aresta direcionada em Y se o usuário x X postou um vídeo resposta para um vídeo do usuário x 2 X. input : Lista L de usuários (sementes). foreach Usuário U em L do.2 Coleta dados de U e sua lista de vídeos;.3 foreach Vídeo V na lista de vídeos do.4 Coleta HTML de V ;.5 if V é vídeo respondido then.6 Coleta HTML dos vídeos resposta de V ;.7 Insere usuários responsíveis em L;.8 end.9 if V é um vídeo resposta then. Insere o usuário respondido em L;. end.2 end.3 end Algoritmo : Coletor Para obter um grande conjunto de usuários e construir o grafo de vídeos resposta, utilizamos um procedimento de amostragem descrito no Algoritmo. Utilizando como semente os donos dos vídeos na lista dos vídeos mais respondidos de todos os tempos, fornecida pelo YouTube, seguimos os elos de vídeos respondidos e vídeos resposta, coletando informações sobre usuários, seus vídeos respondidos e vídeos resposta. As informações do conjunto de dados coletado está sumarizado na tabela.

3 Grau de Saída region região 3 region região 4 region região region região 2 Grau de Entrada Figura : Níveis de interação no grafo de vídeos resposta 3.2 Definição da Coleção de Testes Uma coleção de testes, contendo um conjunto de usuários do YouTube pré-classificados como legítimos, spammers ou promotores de vídeos, é necessária para avaliar a efetividade da nossa abordagem de classificação de poluidores no YouTube. Entretanto, até onde sabemos, nenhuma coleção desse tipo está disponível (nem para o YouTube nem para qualquer outro sistema de distribuição de vídeos). Sendo assim, precisamos criar uma coleção de testes que seja representativa. Obter usuários aleatoriamente dentre os coletados não é uma boa estratégia pois, isso pode levar a uma fração muito pequena de poluidores, tornando a análise dos resultados inconsistente. Sendo assim, definimos três estratégias, com o objetivo de selecionar não apenas diferentes tipos de usuários legítimos, mas também incluir um número significativo de poluidores. Definimos como spammers, usuários que postam pelo menos um vídeo considerado não relacionado (um vídeo spam) ao conteúdo do vídeo respondido na tentativa de promover o vídeo resposta. Como exemplos de vídeos resposta considerados não relacionados aos vídeos respondidos, e consequentemente, classificados como vídeos spam temos: () uma propaganda de um produto ou sítio na Web completamente não relacionado ao tópico do vídeo respondido, (2) pornografia postada como resposta para um vídeo com desenhos animados. Usuários que postaram vídeos spam com o objetivo de promover o vídeo respondido foram classificados como promotores de vídeos. Como exemplo de promotores, notamos alguns usuários que postaram vários vídeos em seqüência e sem conteúdo (duração de segundos) como resposta a um único vídeo respondido. As definições de spammers e promotores de vídeos são subjetivas, pois são baseadas no julgamento humano sobre o conteúdo do vídeo. Para minimizar o impacto do erro humano, quatro voluntários classificaram cada usuário. Todos os usuários e seus vídeos resposta foram analisados e independentemente classificados por três voluntários. O quarto foi utilizado para os casos em que as classificações diferiram. Em caso de dúvida sobre o conteúdo do vídeo ser ou não relacionado ao tópico, os voluntários foram instruídos a classificar os vídeos resposta como legítimos, ou seja, utilizamos uma estratégia conservadora. Como um exemplo, vídeos resposta com pessoas conversando ou expressando suas opiniões foram classificados como legítimos. As estratégias utilizadas para construir a coleção de testes foram: () Para selecionarmos usuários legítimos com diferentes níveis de interação, consideramos o grafo (X, Y ) de vídeos respostas (veja seção 3.). A figura mostra os graus de entrada e saída de Período da coleta -8//28 # vídeos resposta 7.95 # vídeos respondidos # usuários Tabela : Sumário dos dados coletados cada usuário. Foram definidas quatro regiões nesse grafo, representando quatro grupos de usuários com diferentes níveis de interação através de vídeos. A região consiste de usuários com baixo grau de entrada e de saída, correspondendo aos usuários que possuem um baixo nível de interação com outros usuários. A região 2 consiste de usuários com alto grau de entrada e baixo grau de saída. Esses usuários recebem vídeos resposta de um grande número de outros usuários, mas postam vídeos resposta para um número pequeno. A região 3 consiste de usuários com baixo grau de entrada e alto grau de saída. Por último, a região 4 consiste de usuários muito interativos, com alto grau de entrada e de saída. Foram selecionados usuários de cada região 2. Dos 4 usuários selecionados, 382 foram manualmente classificados como legítimos, foram classificados como spammers e nenhum foi classificado como promotor de vídeos. Os 8 restantes não foram incluídos por terem suas contas excluídas pelo YouTube por violação dos termos de uso. (2) Nossa segunda estratégia visa populacionar nossa coleção de testes com spammers e promotores de vídeos. s tendem a postar seus vídeos resposta para vídeos mais populares na tentativa de fazer com que o vídeo spam seja visível para uma grande comunidade de usuários. Promotores também podem ser encontrados entre os vídeos mais populares já que o objetivo de um promotor de vídeos é justamente colocar vídeos entre os mais respondidos. Observando as miniaturas (thumbnails) dos vídeos resposta postados para vídeos entre os vídeos mais respondidos, selecionamos um grande número de usuários suspeitos para inspeção manual. Esta estratégia levou a inserção de mais 7 usuários legítimos, 8 spammers e 28 promotores de vídeos. (3) Nossa última estratégia consiste em selecionar vários usuários que postaram vídeos para os vídeos mais respondidos de forma a minimizar algum possível viés introduzido pela segunda estratégia. Sendo assim, selecionamos aleatoriamente 3 usuários que postaram algum vídeo para um vídeo entre os vídeos mais respondidos de todos os tempos. Com essa estratégia classificamos mais 252 usuários legítimos, 29 spammers e 3 promotores de vídeos. No total, nossa coleção de testes contém 855 usuários, sendo 64 legítimos, 57 spammers e 3 promotores de vídeos. Os usuários nessa coleção de testes postaram vídeos resposta para diferentes vídeos respondidos. 4. CARACTERÍSTICAS DOS USUÁRIOS Usuários legítimos, spammers e promotores de vídeos possuem objetivos diferentes e, consequentemente, possuem características diferentes. Esta seção apresenta características que ressaltam as diferenças entre essas três classes de usuários. Inicialmente, abordamos as características dos vídeos dos usuários. Cada vídeo possui um conjunto de atributos tal como o número de exibições, número de vídeos resposta recebidos, número de comentários, número de vezes que o vídeo foi selecionado como favorito, entre outros. Esses atributos podem ser vistos como indicadores da qualidade dos vídeos gerados pelos usuários. Sendo assim, agrupamos essas características em três grupos de vídeos para cada usuário: todos os vídeos adicionados pelo usuário, apenas os vídeos resposta, todos os vídeos respondidos pelo usuário. A figura 2 (esquerda) mostra a distribuição cumulativa (CDF) do número médio de exibições por vídeo considerando-se todos os vídeos de cada usuário. Vídeos adicionados por promotores são menos exibidos do que vídeos de spammers que são menos vistos 2 Note que o número de usuários nas regiões, 2, 3 e 4 são , 2.333, 3.89 e.54, respectivamente. Logo, selecionando o mesmo número de usuários de cada região leva a uma tendência a usuários da região 4

4 % Acumulada Número de exibições (todos os videos) % Acumulada Duração Média (segundos) % Acumulada Número de avaliações Figura 2: Número médio de exibições de todos vídeos do usuário (esq.), duração média dos vídeos resposta dos usuários (centro) e número de avaliações dos vídeos respondidos (dir.) que vídeos de usuários legítimos. Na coleção de testes, 97% dos usuários legítimos tiveram seus vídeos exibidos, em média, mais de vezes, enquanto que 9% dos spammers e apenas 4% dos promotores de vídeos superaram exibições em média. Obviamente, os vídeos postados por promotores são bem menos exibidos do que os vídeos dos usuários das outras duas classes. Como o objetivo dos promotores de vídeos é elevar o ranking do vídeo respondido, muitos de seus vídeos possuem conteúdo sem sentido e com curta duração, atraindo a atenção de poucos usuários. Outros atributos como número de exibições, número de menções honrosas recebidas e número de elos externos refletem como outros usuários vêem os vídeos postados por promotores, spammers e usuários legítimos. De maneira geral, a análise desses atributos mostra que os vídeos postados por promotores são menos populares do que vídeos postados por spammers, que são menos populares do que vídeos de usuários legítimos. A seguir vamos avaliar a duração média dos vídeos resposta postados por usuários de cada classe. A figura 2 (centro) mostra a CDF da média da duração dos vídeos resposta dos usuários de cada classe. Vídeos de promotores são, em geral, vídeos de pouca duração (média de 7,4 segundos). Os vídeos resposta dos promotores são muito mais curtos do que os vídeos resposta dos spammers que, por sua vez, são mais curtos do que os vídeos resposta dos usuários legítimos. Note que 4% dos promotores possuem vídeos resposta com média de duração menor do que segundo, o que acontece raramente entre usuários legítimos e spammers. Finalmente, vamos analisar uma característica do conjunto de vídeos respondidos. Todo vídeo exibido no YouTube pode ser avaliado por usuários cadastrados no YouTube com uma nota que varia de a 5. Intuitivamente, esperamos que spammers postem seus vídeos para vídeos populares (e consequentemente bem avaliados) na tentativa de atrair exibições para seus vídeos. Por outro lado, promotores de vídeos querem fazer com que um vídeo respondido se torne popular, o que muitas vezes não acontece. A figura 2 (direita) mostra a CDF para a soma de todas as avaliações recebidas pelos vídeos respondidos por promotores, spammers e usuários legítimos. Podemos ver que promotores de vídeos visam vídeos com poucas avaliações enquanto spammers visam vídeos bem avaliados pelos outros. Usuários legítimos representam um meio termo entre spammers e promotores de vídeos, postando vídeos resposta tanto para vídeos com muitas quanto vídeos com poucas avaliações. Outro conjunto de atributos considerado consiste nas características individuais do comportamento do usuário. Intuitivamente, esperamos que usuários legítimos passem mais tempo interagindo com o YouTube, realizando ações como escolher amigos, adicionar vídeos como favoritos, subscrever a um usuário, etc. Para verificar essa intuição, considere a figura 3 (esquerda), que mostra a CDF do número de amigos dos usuários da coleção de testes. Usuários legítimos exibem um grande número de elos de amizade na rede do YouTube. Como exemplo, 75% dos usuários legítimos possuem mais do que amigos, enquanto 49% dos spammers e apenas 7% dos promotores de vídeos possuem mais do que esse mesmo número de amigos. Além de características de usuários e vídeos, atributos importantes podem ser obtidos a partir das relações sociais dos usuários. Essas características são derivadas da estrutura do grafo de vídeos resposta, que é uma das possíveis redes sociais do YouTube. Existem várias métricas de redes sociais associadas com a rede que poderiam indicar o nível de interação dos usuários em uma rede social, incluindo coeficiente de clusterização, betweenness, reciprocidade e assortatividade [5]. Por limitações de espaço, vamos mostrar resultados apenas para a reciprocidade. A reciprocidade (R) para o grafo de vídeos resposta é dada por: R(x) = OS(x) IS(x) OS(x) onde OS(x) é o conjunto de usuários que receberam vídeos resposta de um usuário x e IS(x) é o conjunto de usuários que enviaram vídeos resposta para x. A reciprocidade mede a probabilidade de um usuário receber um vídeo resposta de cada usuário para o qual ele/ela enviou um vídeo resposta. A figura 3 (centro) mostra que todos os promotores de vídeos possuem reciprocidade e que a fração de spammers que tiveram reciprocidade maior que é baixa, cerca de 6%. Por outro lado, cerca de 38% dos usuários legítimos possuem reciprocidade maior que. Logo, promotores de vídeos são naturalmente associados a reciprocidade, spammers são associados a reciprocidade baixa (mas potencialmente não zero), enquanto que usuários legítimos, cujo comportamento é caracterizado por relações sociais, são, em geral, associados a valores mais altos de reciprocidade. Nós também utilizamos o algoritmo PageRank [2] em nosso grafo para determinar a importância do usuário em termos de interações de vídeos resposta. No algoritmo do PageRank, uma página Web possui um ranking alto se a ela possui várias elos de entrada ou elos vindos de páginas com ranking alto. Chamamos os números computados pelo algoritmo do PageRank em nosso grafo de User- Rank, que pode ser utilizado como um indicador da importância dos usuários em termos de suas participações através de interações via vídeo []. A figura 3 mostra que usuários legítimos possuem um UserRank mais alto do que spammers que, por sua vez, possuem UserRank mais alto do que promotores de vídeos. Essas diferenças entre usuários discutidas nessa seção, e várias outras não discutidas por questões de espaço, podem ser utilizadas para detectar spammers e promotores de vídeos. A seguir utilizamos essas características aplicadas a um algoritmo de classificação. ()

5 % Acumulada Número de amigos % Acumulada Leg timo Reciprocidade % Acumulada UserRank (normalizado) Figura 3: Número de amigos (esq.), Reciprocidade (centro) e PageRank (dir.) dos usuários da coleção de testes 5. DETECÇÃO DE POLUIDORES Nosso método para detecção de spammers e promotores de vídeos é baseado em uma abordagem de aprendizado de máquina para classificação dos usuários. Nesta abordagem, o algoritmo de classificação "aprende" com parte dos dados e então aplica seu conhecimento para classificar usuários em três tipos: legítimos, spammers ou promotores. A seguir apresentamos os atributos utilizados pelo classificador, as métricas usadas para avaliar a eficiência da classificação, os resultados e as situações em que o algoritmo de classificação erra. 5. Atributos Os atributos selecionados podem ser separados em três grupos: Atributos dos Usuários: Para cada usuário, utilizamos vários atributos correspondentes ao seu perfil. Os 9 atributos utilizados são: número de vídeos adicionados no YouTube, número de amigos, número de vídeos assistidos, número de vídeos adicionados como favoritos, número de vídeos resposta enviados e recebidos, número de inscrições, número de inscritos e o número máximo de vídeos adicionados em um dia. Atributos dos Vídeo: Para cada usuário foram considerados os três conjuntos de vídeos discutidos na seção 4: vídeo adicionados ao YouTube, apenas os vídeos respostas postados, vídeos respondidos pelo usuário. Para cada conjunto consideramos a média e o total dos seguintes atributos: duração, número de exibições, avaliações, comentários, favoritos, menções honrosas e elos externos. Como consideramos a média e o total destes atributos para cada um dos três conjuntos, temos um total de 42 atributos para cada usuário. Atributos de Redes Sociais: Foram utilizados 8 atributos de redes sociais baseados no grafo de vídeos resposta: coeficiente de clusterização, UserRank, betweenness, reciprocidade e assortatividade [5]. O coeficiente de clusterização de um nodo i cc(i) é a taxa do número de arestas existentes sobre o número de todas as arestas possíveis entre os vizinhos de i. Este coeficiente mede a densidade da comunicação, não só entre dois usuários, mas também entre os vizinhos dos vizinhos. O betweenness é a medida da centralidade de um usuário no grafo de vídeos resposta. Vértices que ocorrem em muito caminhos mínimos entre dois vértices possuem maior betweenness do que aqueles que não ocorrem. Com o intuito de utilizarmos a assortatividade como uma métrica de cada nodo, ela foi definida como a razão entre o grau do nodo e a média do grau dos seus vizinhos [3]. A assortatividade é calculada para quatro tipos de correlação grau-grau (entrada-entrada, entrada-saída, saída-entrada e saída-saída). Os graus de entrada e saída não foram utilizados como atributos porque foram utilizados para definir parte dos usuários da coleção de testes (veja seção 3.2). 5.2 Métricas Para medir o desempenho da classificação com múltiplas classes, utilizamos as medidas convencionais [6]: micro F, macro F, precisão média e revocação média (explicadas a seguir), o que permite a comparação de resultados com futuras abordagens de classificação para a coleção de testes que criamos. Revocação (r) de uma classe é a razão do número de usuários corretamente classificados pelo número de usuários da classe. Precisão (p) de uma classe é a razão do número de usuários classificados corretamente pelo total predito como sendo dessa classe. O F ou F-measure é definido como F = 2pr/(p + r), que leva em consideração tanto a precisão quanto a revocação. Como um exemplo, considere a seguinte tabela abaixo, que representa uma matriz de confusão []. Cada posição da matriz representa o número de elementos em suas classes originais e como eles foram previstos pela classificação. Na matriz abaixo, a precisão (p prom) e a revocação (r prom) para a classe promotor podem ser calculadas da seguinte forma: p prom = a/(a + d + g) e r prom = a/(a + b + c). Previsto Promotor Promotor a b c Real d e f g h i A precisão e revocação médias e o macro F, são calculados a partir da média dessas medidas computadas para cada classe individualmente. Já o micro F é calculado computando-se as decisões de todas as categorias juntas, a partir da revocação e precisão globais. O micro F considera igualmente importante a classificação de cada usuário enquanto que o macro F considera igualmente importante o desempenho em cada classe, independente de seu tamanho relativo. 5.3 Classificação Foi escolhido como método de classificação, o SVM [5] (Support vector machine), um algoritmo de classificação bastante conhecido por seu desempenho competitivo com o estado da arte. Basicamente, o SVM realiza a classificação mapeando entradas de vetores em um espaço N-dimensional. O objetivo é encontrar os hiperplanos que separam os dados em categorias. Foi utilizado o SVM não-linear com kernel RBF para permitir os modelos do SVM separarem os hiperplanos com limites complexos. A implementação do SVM utilizada é a libsvm [6], um pacote de código aberto que permite buscar pelos melhores parâmetros (ex. custo e gama) de configuração do SVM para a base de dados. Particularmente, utilizamos uma ferramenta do libsvm chamada easy, que provê uma série de otimizações, incluindo normalização de todos os atributos númericos. Para a realização dos testes utilizamos validação cruzada 5-fold. Nesse teste, a base de dados original é embaralhada e então particionada em 5 partes. Uma das partes é usada como teste para o

6 classificador e as outras quatro partes restantes são utilizadas para treinar o classificador. O processo é repetido 5 vezes, com cada uma das partes sendo utilizada como teste somente uma vez. O resultado final é a média das 5 execuções. Para obter médias mais representativas, repetimos a validação cruzada 5-fold utilizando-se 5 sementes diferentes para o embaralhamento da base original, resultando na execução de 25 testes. Os resultados abaixo apresentados são a média desses 25 testes. Com 95% de confiança, nenhum resultado difere da média em mais de 6%. Previsto Promotor Promotor 96,77% 3,23%,% Real 2,7% 54,39% 43,44%,22% 5,2% 94,57% Tabela 2: Matriz de confusão da classificação A tabela 2 mostra a matriz de confusão obtida como resultado da classificação. Os números apresentados são porcentagens relativas ao total de usuários em cada classe. A diagonal em negrito indica a taxa de acerto em cada classe real (revocação de cada classe). Particularmente, 96,77% dos promotores de vídeos, 54,39% dos spammers e 94,57% dos usuários legítimos foram classificados corretamente. Observando a matriz, podemos notar que nenhum promotor foi classificado como legítimo. Da mesma forma, usuários legítimos dificilmente são classificados como promotores (apenas,22%). Apenas 3,23% dos promotores são classificados como spammers. Observando as características desses usuários, notamos que os vídeos por eles respondidos (vídeos promovidos) conseguiram certa popularidade. Como vídeos respondidos populares são o alvo típico de spammers, esses promotores foram confundidos com spammers pelo algoritmo de classificação. Uma fração significativa de spammers é confundida com usuários legítimos. De maneira geral, estes spammers possuem relações sociais e uma quantidade significativa de vídeos legítimos, agindo ora como usuários legítimos, ora como spammers. Este comportamento dual mascara diversos atributos que poderiam diferenciar as duas classes. Futuramente, pretendemos explorar subclasses de spammers para melhorar os resultados da classificação, que são o primeiro esforço na área. A tabela 3 apresenta as métricas globais da classificação de forma a permitir a comparação de resultados futuros com a coleção de testes criada. Métrica Resultado Precisão Média 82.6 Revocação Média 82. Macro F 8.46 Micro F 87. Tabela 3: Visão Geral dos resultados da classificação 6. SIMULAÇÃO Nesta seção simulamos um ambiente de interações através de vídeos para prover respostas iniciais para as seguintes questões: ) Quantos spammers e promotores de vídeos podem afetar o sistema? É improvável que um ou dois usuários consigam comprometer um sistema inteiro, mas e se tivermos % de poluidores no sistema? 2) Quanto de esforço é necessário para spammers afetarem o sistema? 3) Qual o impacto de se remover automaticamente a poluição (usuários ou seus vídeos spam) detectados pelo nosso mecanismo de classificação? Com o intuito de demonstrar a aplicabilidade do mecanismo de detecção de poluição proposto, nós desenvolvemos um simulador em C++ de um sistema de interações via vídeo. A seguir apresentamos a modelagem adotada para a construção do simulador e os resultados obtidos. 6. Modelagem do Sistema Um sistema de interações através de vídeos é composto por um conjunto U de usuários, um conjunto S de vídeos resposta, um conjunto R de vídeos respondidos e uma relação de postagem P, que mantém as associações entre vídeos respondidos, vídeos resposta e usuários. Vamos chamar a ação de enviar um vídeo resposta a um vídeo respondido de postagem. Uma postagem p P é uma tupla [u,s,r] u U, s S e r R. Dizemos que p é considerada spam quando s é um vídeo resposta não relacionado à r na tentativa de promover r ou o próprio s. Vamos considerar a existência de três classes de usuários, definidas pelo conjunto de classes C = {l, s, p}, onde l, s e p representam as classes de usuários legítimos, spammers e promotores de vídeos, respectivamente. Assumimos que todos os usuários da classe c C possuem a mesma probabilidade p c de postar um vídeo spam. Por simplicidade assumimos que S R =. Cada usuário u U possui uma lista de vídeos resposta S(u) S S(u). Da mesma forma, cada vídeo respondido r R possui uma lista de vídeos resposta S(r) S. Os usuários donos de vídeos respondidos não são modelados em sistema. Para simular a aplicação do algoritmo de classificação, definimos, para cada usuário, uma classe prevista pelo mecanismo de detecção de poluidores, além da classe real. A partir da classe prevista, mecanismos de remoção de poluição podem ser aplicados. Sendo assim, usuários podem ser dividos em nove conjuntos de acordo com suas classes previstas e reais. Dizemos que o usuário u U ij i, j C se, e somente se, u é da classe i e foi classificado como da classe j. Para i = j temos a situação em que a classificação foi feita corretametne. Note que U = S U ij i, j C. Os passos básicos para a simulação do nosso sistema são: ) criar o conjunto de usuários U; 2) gerar as relações de postagem P ; e 3) aplicar mecanismos de remoção de poluição no sistema; sumarizados no algoritimo 2. O primeiro laço (linhas 2. a 2.3) define a porcentagem de usuários em cada classe. Neste caso, p c C, é um dos parâmetros do simulador. A tabela 4 mostras os valores padrão, extraídos da coleção de testes. O segundo laço (linhas 2.4 a 2.7) cria cada usuário definindo sua classe verdadeira, sua classe prevista e o número de vídeos resposta que cada usuário postará. A classe prevista é definida a partir da matriz de confusão da tabela 2. Os números da matriz de confusão definem a probabilidade de usuários da classe i serem classificados como usuários da classe j, sendo i, j C. Em outras palavras, utilizamos as porcentagens da matriz de confusão como probabilidades de inserção de usuários nos nove conjuntos U ij i, j C. A definição de S(u) é feita a partir de dados reais extraídos da coleção de testes. Ao invés de fixar um valor médio por classe, utilizamos as distribuições de números de vídeos resposta de cada classe ilustradas na figura 4 (esquerda). Promotores de vídeo são bem mais agressivos do que os demais usuários, seguidos de spammers e usuários legítimos. O simulador armazena essas distribuições em forma de percentis, de forma a definir S(u) seguindo a mesma distribuição dos dados da coleção de teste. No terceiro laço (linha 2.8 a 2.4) todos os usuários postam seus vídeos resposta de acordo com as características de cada classe. Para selecionar o vídeo a ser respondido (linha 2.), utilizamos mecanismos diferentes de acordo com a classe dos usuários. s e legítimos escolhem o vídeo respondido, r, de acordo com a probabilidade de cada vídeo r R receber postagens. Essa probabilidade é definida a partir dos dados reais ilustrados na figura 4

7 % Acumulada 2. foreach Classe c do 2.2 defina porcentagem de usuários em cada classe (p c); 2.3 end 2.4 foreach Usuário u U faça do 2.5 defina classe prevista de u; 2.6 defina S(u) ; 2.7 end 2.8 foreach Usuário u U faça do 2.9 foreach Vídeo Resposta s S(u) faça do 2. defina se s é poluição ou não de acordo com p c e c de u; 2. selecione um vídeo respondido r R para receber a postagem p; 2.2 registre p = [u, s, r]: usuário u envia s como resposta a r; 2.3 end 2.4 end remoção de poluidores detectados ou de seus vídeos spam Algoritmo 2: Esboço do Simulador Número de respostas postadas Prob. de receber respostas (cumulativo) Figura 4: Características incorporadas ao simulador (direita). Essa figura mostra o ranking dos vídeos respondidos em termos do número de vídeos resposta. Cada ponto dessa figura é um vídeo respondido e, no eixo y, apresentamos de forma acumulativa a probabilidade do vídeo respondido receber um vídeo resposta. Para simular a promoção de vídeos respondidos, adotamos uma estratégia para os promotores. Para cada promotor de vídeos u, selecionamos um vídeo respondido r (o de menor probabilidade de receber postagens de spammers e legítimos) para ser o vídeo promovido por u. Feito isso, todos os demais vídeos resposta de u são postados para r. Por último, um algoritmo de remoção de usuários ou de seus vídeos pode ser aplicado. Nos experimentos, utilizamos o número de usuários e de vídeos respondidos de forma a manter a proporção de usuários/vídeo respondido dos dados coletados. A tabela 4 sumariza os valores padrão utilizados nos experimentos. 6.2 Métrica Para avaliarmos a poluição no sistema causada por spammers e promotores de vídeos, precisamos de uma métrica que capture não só a porcentagem de vídeos poluídos em cada tópico (vídeo respondido), mas também que considera o ranking em termos de número de vídeos resposta recebidos pelo vídeo respondido. Isso porque vídeos poluídos em tópicos que geram longas discussões atingem SÍMBOLO DESCRIÇÃO VALOR U # de usuários 2.6 R # de vídeos respondidos 3.8 p legtimo prob. de legítimos postarem poluição p spammer prob. de spammers postarem poluição.2 p promotor prob. de promotores postarem poluição.99 Tabela 4: Parâmetros utilizados nos experimentos Rank um maior número de usuários finais e comprometem tópicos de discussão populares. Por outro lado, quando promotores promovem um vídeo a uma lista de mais discutidos com tamanho limitado, um vídeo discutido apenas por usuários legítimos deixa de entrar para essa lista. Nesse contexto, propomos uma métrica que considera tanto o ranking do vídeo respondido quanto a fração de vídeos poluídos postados como resposta ao vídeo respondido. Chamamos essa métrica de nível de poluição (P L), definida da seguinte forma. Considere uma seqüência de vídeos respondidos R = {r, r 2, r i,...}, ordenada de forma decrescente pelo número de vídeos resposta recebidos de r i, S(r i). O nível de poluição, PL, é dado por: PL = P R i= p(ri) i P R i= i onde i é o ranking do vídeo respondido r i R e p(r i) é a fração de vídeos resposta poluído de r i. Esta métrica é afetada tanto pelo número de vídeos poluídos no sistema quanto pela posição no ranking do vídeo respondido. O denominador da fórmula serve apenas para normalizar a métrica entre e. Outras métricas, como a porcentagem de vídeos poluídos no sistema, não são discutidas na seção seguinte porque não oferecem informações adicionais. 6.3 Resultados Spam em outros sistemas, tais como e blogs, cresceu rapidamente ao longo dos anos [3, 8]. Como um exemplo, de 23 para 25, o tráfego de spam cresceu de 24% para 83% do total de tráfego de s [8]. Dado o recente crescimento de vídeos na Web, é natural questionarmos sobre a efetividade da nossa abordagem em um ambiente com um número muito maior de poluidores. Nessa seção discutimos a aplicabilidade da nossa abordagem em diferentes cenários. Todos os resultados apresentados são média de 3 execuções e, com 95% de confiança, nenhum resultado difere da média em mais do que 4%. Inicialmente, estudamos o impacto do número de usuários poluidores no sistema. As figuras 5 (esquerda) e (centro) mostram gráficos onde aumentamos a porcentagem de usuários em cada classe e medimos o nível de poluição no sistema. Ao variarmos o número de spammers, fixamos o número de promotores em e, da mesma forma, ao variarmos o número de promotores, fixamos o número de spammers em. Podemos notar que uma pequena porcentagem de spammers não é suficiente para causar muito impacto no nível de poluição do sistema (ex. PL =.6 para 5% de U ). Entretanto, um nível de poluição elevado pode ser observado quando aumentamos a população de spammers (ex. PL=.7 para 3% de U ). Por outro lado, o nível de poluição no sistema causado por promotores de vídeos é alto, mesmo para pequenas proporções desses usuários no sistema (ex. P L = 2 para 5% de U ). Por concentrarem todos os seus vídeos resposta em um único tópico, um promotor de vídeos eleva o ranking do vídeo respondido postando uma grande quantidade de vídeos spam, concentrando uma grande quantidade de poluição em vídeos com boas posições no ranking. Com o intuíto de avaliar a redução na poluição no sistema, vamos simular a utilização da abordagem de classificação proposta. Acreditamos que nossa estratégia não possa ser utilizada para remoção imediata dos usuários identificados como poluidores, já que ela não está livre de erros. Sendo assim, nossa estratégia pode funcionar como um mecanismo de filtragem para reduzir uma grande quantidade de inspeção manual. Desta forma, em nossa simulação, apenas os usuários detectados pela classificação tiveram seus vídeos poluídos removidos do sistema. Nas figuras 5 (esquerda) e (centro), mostramos o nível de poluição no sistema ao removermos os (2)

8 Nível de Poluição Sem remover Removendo poluição % of Promotores Nível de Poluição Sem remover Removendo poluição % of s Nível de Poluição % spammers 3% spammers % spammers Prob. de Postar Vídeo Spam Figura 5: Impacto do número de promotores (esq.) e spammers (meio) no sistema. Impacto do esforço de spammers no sistema (dir.) vídeos poluídos dos usuários detectados como spammers ou promoters. De maneira geral, podemos notar que, uma redução significativa no nível de poluição ao removermos os vídeos poluídos dos usuários classificados como spammers ou promotores. Entretanto, para um sistema com uma porcentagem muito grande de promoters, uma pequena fração de promoters não detectada (cerca de 3.23%) pelo algoritmo de classificação é suficiente para poluir o sistema. No caso dos spammers, apesar de reduzida a poluição no sistema, ela continua alta para grandes frações de spammers devido à dificuldade do algoritmo de detectar spammers. Por último, ao inspecionarmos os usuários da nossa base, notamos que existem spammers que postam somente vídeos poluídos e também a existência de spammers que postam vídeos não relacionados, mas sem intenção de poluir o sistema, contribuindo também com vídeos legítimos. Sendo assim, vamos investigar o nível de poluição no sistema quando spammers postam diferentes frações de vídeos poluídos. A figura 5 (direita) mostra o nível de poluição no sistema como uma função da probabilidade de um spammer postar um vídeo poluído para um sistema com %, 3% e 5% de spammers (o restante dos usuários são legítimos). Com % de spammers, seja qual for a porcentagem de vídeos poluído entre os vídeos postados, não temos um nível alto de poluição no sistema (no máximo PL =. quando 9% dos usuários são spammers). Com 3% e 5% de spammers no sistema, cerca de 7% e 5% de vídeos poluídos postados por spammers são suficientes para atingir um nível de poluição acima de.2. Como trabalhos futuros, pretendemos explorar subclasses de spammers como uma forma de capturar usuários spammers que provocam diferentes níveis de poluição no sistema. 7. CONCLUSÕES E TRABALHOS FUTUROS Nesse trabalho abordamos o problema de detecção de usuários poluidores no YouTube. Para isso foi coletado um componente inteiro do grafo de vídeos resposta do YouTube. Através de inspeção manual, criamos uma coleção de testes com usuários classificados como legítimos, spammers e promotores de vídeos. Nós apresentamos uma caracterização de aspectos que podem ser utilizados para diferenciar usuários desses grupos e aplicamos estes aspectos em um algoritmo de classificação. Nosso mecanismo de detecção de usuários poluidores é capaz de identificar corretamente 97% de promotores, 54% de spammers, errando apenas 5,4% de usuários legítimos. Através de simulação mostramos que uma pequena porcentagem de promotores de vídeos é capaz de elevar o nível de poluição do sistema e discutimos o impacto de se remover usuários poluidores ou seus vídeos poluídos, além avaliarmos outros cenários relacionados ao número de poluidores e seus esforços para poluírem o sistema. Como trabalhos futuros, pretendemos melhorar nosso mecanismo de detecção de poluidores, explorando novos atributos, combinando algoritmos de classificação ou mesmo refinando as classes de usuários que temos em subclasses. Além disso, pretendemos estender nosso simulador para abordar outras questões relacionadas ao impacto de spammers e promotores de vídeos no sistema. 8. REFERÊNCIAS [] F. Benevenuto, F. Duarte, T. Rodrigues, V. Almeida, J. Almeida, and K. Ross. Understanding video interactions in youtube. In Proc. ACM Multimedia (MM), 28. [2] S. Brin and L. Page. The anatomy of a large-scale hypertextual web search engine. In Proc. of Int l World Wide Web Conference (WWW), 998. [3] C. Castillo, D. Donato, A. Gionis, V. Murdock, and F. Silvestri. Know your neighbors: Web spam detection using the web topology. In Int l ACM SIGIR, 27. [4] M. Cha, H. Kwak, P. Rodriguez, Y. Ahn, and S. Moon. I tube, you tube, everybody tubes: Analyzing the world s largest user generated content video system. In Proc. Internet Measurement Conference (IMC), 27. [5] S. Dorogovtsev and J. Mendes. Evolution of Networks: from Biological Nets to the Internet and WWW. Oxford University Press, 23. [6] R. Fan, P. Chen, and C. Lin. Working set selection using the second order information for training svm. Journal of Machine Learning Research (JMLR), 6, 25. [7] P. Gill, M. Arlitt, Z. Li, and A. Mahanti. Youtube traffic characterization: A view from the edge. In Proc. Internet Measurement Conference (IMC), 27. [8] L. Gomes, J. Almeida, V. Almeida, and W. Meira. Workload models of spam and legitimate s. Performance Evaluation, 64, 27. [9] L. Gomes, F. Castro, V. Almeida, J. Almeida, R. Almeida, and L. Bettencourt. Improving spam detection based on structural similarity. In Proc. SRUTI, 25. [] P. Heymann, G. Koutrika, and H. Garcia-Molina. Fighting spam on social web sites: A survey of approaches and future challenges. IEEE Internet Computing,, 27. [] R. Kohavi and F. Provost. Glossary of terms. Special Issue on Applications of Machine Learning and the Knowledge Discovery Process, Machine Learning, 3, 998. [2] G. Koutrika, F. Effendi, Z. Gyöngyi, P. Heymann, and H. Garcia-Molina. Combating spam in tagging systems. In Proc. AIRWeb, 27. [3] Y. Lin, H. Sundaram, Y. Chi, J. Tatemura, and B. Tseng. Detecting splogs via temporal dynamics using self-similarity analysis. ACM Transactions on the Web (TWeb), 2, 28. [4] M. Shannon. Shaking hands, kissing babies, and...blogging? Communications of the ACM, 5, 27. [5] I. Tsochantaridis, T. Joachims, T. Hofmann, and Y. Altun. Large margin methods for structured and interdependent output variables. Journal of Machine Learning Research (JMLR), 6, 25. [6] Y. Yang. An evaluation of statistical approaches to text categorization. Information Retrival,, 999.

Workload Characterization Practical Examples

Workload Characterization Practical Examples Workload Characterization Practical Examples 1. Analyzing Client Interactivity in Streaming Media, C. Costa et al., Proc. WWW 2004 2. A Characterization of Broadband User Behavior and their E- business

Leia mais

Workload Characterization Practical Examples

Workload Characterization Practical Examples Workload Characterization Practical Examples 1. Analyzing Client Interac3vity in Streaming Media, C. Costa et al., Proc. WWW 2004 2. A Characteriza3on of Broadband User Behavior and their E- business Ac3vi3es,

Leia mais

Uma Análise Empírica de Interações em Redes Sociais

Uma Análise Empírica de Interações em Redes Sociais Uma Análise Empírica de Interações em Redes Sociais Fabrício Benevenuto e Virgílio Almeida 1 Departamento de Ciência da Computação Universidade Federal de Minas Gerais Belo Horizonte - Brasil {fabricio,virgilio}@dcc.ufmg.br

Leia mais

Máquinas de suporte vetorial e sua aplicação na detecção de spam

Máquinas de suporte vetorial e sua aplicação na detecção de spam e sua aplicação na detecção de spam Orientador: Paulo J. S. Silva (IME-USP) Universidade de São Paulo Instituto de Matemática e Estatística Departamento de Ciência da Computação MAC499 Trabalho de Formatura

Leia mais

Sistema de Reconhecimento de Logotipos

Sistema de Reconhecimento de Logotipos Sistema de Reconhecimento de Logotipos Fellipe Duarte, Saulo T. Oliveira {duartefellipe,sto}@cos.ufrj.br Relatório Técnico, Introdução ao Processamento de Imagens Programa de Engenharia de Sistemas e Computação

Leia mais

3 Extração de Regras Simbólicas a partir de Máquinas de Vetores Suporte 3.1 Introdução

3 Extração de Regras Simbólicas a partir de Máquinas de Vetores Suporte 3.1 Introdução 3 Extração de Regras Simbólicas a partir de Máquinas de Vetores Suporte 3.1 Introdução Como já mencionado na seção 1.1, as SVMs geram, da mesma forma que redes neurais (RN), um "modelo caixa preta" de

Leia mais

Rickson Guidolini Orientador: Nivio Ziviani Co-orientador: Adriano Veloso

Rickson Guidolini Orientador: Nivio Ziviani Co-orientador: Adriano Veloso Detecção de Réplicas de Sítios Web em Máquinas de Busca Usando Aprendizado de Máquina Rickson Guidolini Orientador: Nivio Ziviani Co-orientador: Adriano Veloso Universidade Federal de Minas Gerais LATIN

Leia mais

Descoberta de conhecimento em redes sociais e bases de dados públicas

Descoberta de conhecimento em redes sociais e bases de dados públicas Descoberta de conhecimento em redes sociais e bases de dados públicas Trabalho de Formatura Supervisionado Bacharelado em Ciência da Computação - IME USP Aluna: Fernanda de Camargo Magano Orientadora:

Leia mais

Descritores de Imagens

Descritores de Imagens Descritores de Imagens André Tavares da Silva PPGCA/UDESC Outubro de 2017 André Tavares da Silva (PPGCA/UDESC) Descritores de Imagens Outubro de 2017 1 / 18 Descritores Locais e Frameworks SIFT SURF Viola-Jones

Leia mais

Criando fórum. Vamos aprender a criar um fórum. Siga os passos a seguir!

Criando fórum. Vamos aprender a criar um fórum. Siga os passos a seguir! Criando fórum Criando fórum O fórum é uma ferramenta muito utilizada em cursos a distância por permitir a discussão de um tema específico de modo assíncrono, ou seja, a interação entre os participantes

Leia mais

Identificação e Caracterização de Comportamentos Suspeitos Através da Análise do Tráfego DNS

Identificação e Caracterização de Comportamentos Suspeitos Através da Análise do Tráfego DNS Identificação e Caracterização de Comportamentos Suspeitos Através da Análise do Tráfego DNS Kaio R. S. Barbosa, Eduardo Souto, Eduardo Feitosa, Gilbert B. Martins ALUNO: WEVERTON BUENO DA SILVA Motivação

Leia mais

Otimização Combinatória - Parte 4

Otimização Combinatória - Parte 4 Graduação em Matemática Industrial Otimização Combinatória - Parte 4 Prof. Thiago Alves de Queiroz Departamento de Matemática - CAC/UFG 2/2014 Thiago Queiroz (DM) Parte 4 2/2014 1 / 33 Complexidade Computacional

Leia mais

2 Sentiment Analysis 2.1

2 Sentiment Analysis 2.1 2 Sentiment Analysis 2.1 Definição do Problema Sentiment Analysis é um problema de categorização de texto no qual deseja-se detectar opiniões favoráveis e desfavoráveis com relação a um determinado tópico

Leia mais

Classificação Automática de Gêneros Musicais

Classificação Automática de Gêneros Musicais Introdução Método Experimentos Conclusões Utilizando Métodos de Bagging e Boosting Carlos N. Silla Jr. Celso Kaestner Alessandro Koerich Pontifícia Universidade Católica do Paraná Programa de Pós-Graduação

Leia mais

Para ajudar a interpretar os resultados, o Cartão de Relatórios do Assistente do teste de % de defeituosos para 1 amostra exibe os seguintes

Para ajudar a interpretar os resultados, o Cartão de Relatórios do Assistente do teste de % de defeituosos para 1 amostra exibe os seguintes Este documento é de uma série de papéis que explicam a pesquisa conduzida por estatísticos da Minitab para desenvolver os métodos e as verificações de dados usadas no assistente no software estatístico

Leia mais

Aprendizado de Máquinas

Aprendizado de Máquinas Aprendizado de Máquinas Objetivo A área de aprendizado de máquina preocupa-se em construir programas que automaticamente melhorem seu desempenho com a experiência. Conceito AM estuda métodos computacionais

Leia mais

Estatísticas e Relatórios. Treinamento OTRS Help Desk

Estatísticas e Relatórios. Treinamento OTRS Help Desk Estatísticas e Relatórios Treinamento OTRS Help Desk Sumário Estatística... 3 Visão Geral... 3 Gerando Relatórios... 4 Criação de Relatórios... 5 Lista de Chamado... 7 Acumulação de Chamados...10 Tempo

Leia mais

Teste de % de defeituosos para 1 amostra

Teste de % de defeituosos para 1 amostra DOCUMENTO OFICIAL DO ASSISTENTE DO MINITAB Este documento é de uma série de papéis que explicam a pesquisa conduzida por estatísticos da Minitab para desenvolver os métodos e as verificações de dados usadas

Leia mais

Teoria dos Grafos. Árvores Geradoras

Teoria dos Grafos. Árvores Geradoras Teoria dos Grafos Valeriano A. de Oliveira Socorro Rangel Silvio A. de Araujo Departamento de Matemática Aplicada antunes@ibilce.unesp.br, socorro@ibilce.unesp.br, saraujo@ibilce.unesp.br Preparado a partir

Leia mais

Descritores de Imagens

Descritores de Imagens Descritores de Imagens André Tavares da Silva PPGCA/UDESC Outubro de 2017 André Tavares da Silva (PPGCA/UDESC) Descritores de Imagens Outubro de 2017 1 / 17 Introdução Excelentes pesquisas sobre descritores

Leia mais

Caracterização Automática dos Agentes Causadores de Lesões em Folíolos de Cultivares do Brasil. Suellen Silva de Almeida David Menotti

Caracterização Automática dos Agentes Causadores de Lesões em Folíolos de Cultivares do Brasil. Suellen Silva de Almeida David Menotti Caracterização Automática dos Agentes Causadores de Lesões em Folíolos de Cultivares do Brasil Suellen Silva de Almeida David Menotti 1 Introdução Grande ocorrência de ataques de pragas nos cultivares

Leia mais

Objetivos. 1. O método desenvolvido usa características de pares de pixeis para fazer estatísticas e formar

Objetivos. 1. O método desenvolvido usa características de pares de pixeis para fazer estatísticas e formar Introdução Comidas podem apresentar deformações e variações em sua forma, além de conter muitos ingredientes, nem todos visíveis; Métodos tradicionais de reconhecimento requerem a detecção de características

Leia mais

SEMINÁRIO DOS ARTIGOS:

SEMINÁRIO DOS ARTIGOS: SEMINÁRIO DOS ARTIGOS: Text Detection and Character Recognition in Scene Images with Unsupervised Feature Learning End-to-End Text Recognition with Convolutional Neural Networks Fernanda Maria Sirlene

Leia mais

2 Reconhecimento Facial

2 Reconhecimento Facial 2 Reconhecimento Facial Em termos gerais, o reconhecimento facial é o processo pelo qual se mede o grau de similaridade entre duas imagens faciais com o proposito de identificar a um indivíduo ou de verificar

Leia mais

Um Mecanismo de Detecção de Versões de Páginas Web para Melhoria do Desempenho do Algoritmo de PageRank

Um Mecanismo de Detecção de Versões de Páginas Web para Melhoria do Desempenho do Algoritmo de PageRank Um Mecanismo de Detecção de Versões de Páginas Web para Melhoria do Desempenho do Algoritmo de PageRank Glauber Rodrigues da Silva, Renata de Matos Galante Instituto de Informática Universidade Federal

Leia mais

PADRÕES LOCAIS DA REDE. Prof. Fabrício Olivetti de França

PADRÕES LOCAIS DA REDE. Prof. Fabrício Olivetti de França PADRÕES LOCAIS DA REDE Prof. Fabrício Olivetti de França folivetti@ufabc.edu.br CENTRALIDADE Importância dos nós Até então vimos que cada nó da rede cumpre seu papel na transmissão de informação. G B C

Leia mais

INF 1771 Inteligência Artificial

INF 1771 Inteligência Artificial INF 1771 Inteligência Artificial Aula 14 Support Vector Machines (SVM) 2016.1 Prof. Augusto Baffa Formas de Aprendizado Aprendizado Supervisionado Árvores de Decisão. K-Nearest

Leia mais

4 Construção dos Classificadores

4 Construção dos Classificadores 4 Construção dos Classificadores 4.1. Modelagem O aprendizado supervisionado contém a etapa de modelagem, nessa etapa definimos quais serão as características encaminhadas ao classificador para o treinamento.

Leia mais

Relatório de pesquisa sobre o procedimento de otimização de modelos no Activate

Relatório de pesquisa sobre o procedimento de otimização de modelos no Activate Relatório de pesquisa sobre o procedimento de otimização de modelos no Activate 1 Introdução Esse trabalho tem por objetivo apresentar o bloco de otimização BobyqaOpt, suas funcionalidades, parâmetros

Leia mais

Máquinas de Vetores de Suporte Aplicadas à Classificação de Defeitos em Couro Bovino

Máquinas de Vetores de Suporte Aplicadas à Classificação de Defeitos em Couro Bovino Máquinas de Vetores de Suporte Aplicadas à Classificação de Defeitos em Couro Bovino Ricardo Cezar Bonfim Rodrigues 24 de abril de 2006 1 Antecedentes e Justificativa Hoje, em diversos processos industriais,

Leia mais

7 Congresso de Pós-Graduação MODELAGEM DE BASE DE CONHECIMENTO PARA TAREFA DE CLASSIFICAÇÃO EM MINERAÇÃO DE DADOS

7 Congresso de Pós-Graduação MODELAGEM DE BASE DE CONHECIMENTO PARA TAREFA DE CLASSIFICAÇÃO EM MINERAÇÃO DE DADOS 7 Congresso de Pós-Graduação MODELAGEM DE BASE DE CONHECIMENTO PARA TAREFA DE CLASSIFICAÇÃO EM MINERAÇÃO DE DADOS Autor(es) LIDIA MARTINS DA SILVA Orientador(es) ANA ESTELA ANTUNES DA SILVA 1. Introdução

Leia mais

PROCESSAMENTO DE TEXTO

PROCESSAMENTO DE TEXTO PROCESSAMENTO DE TEXTO (TEXT MINING) Jorge Teixeira IART 2014/2015 SAPO LABS ( http://labs.sapo.pt ) AGENDA (Enquadramento na UC de Inteligência Artificial - IART) Parte 1: Introdução à Linguagem Natural

Leia mais

Aprendizado de Máquina. Combinando Classificadores

Aprendizado de Máquina. Combinando Classificadores Universidade Federal do Paraná (UFPR) Departamento de Informática (DInf) Aprendizado de Máquina Combinando Classificadores David Menotti, Ph.D. web.inf.ufpr.br/menotti Introdução O uso de vários classificadores

Leia mais

PCC146 RECONHECIMENTO DE PADRÕES Trabalho Pacial

PCC146 RECONHECIMENTO DE PADRÕES Trabalho Pacial Universidade Federal de Ouro Preto Instituto de Ciências Exatas e Biológicas Programa de Pós-Graduação em Ciência da Computação PCC146 RECONHECIMENTO DE PADRÕES Trabalho Pacial Eduardo Luz Rensso Mora

Leia mais

Manual Moodle. Perfil de Aluno. Elaboração:

Manual Moodle. Perfil de Aluno. Elaboração: 1 Manual Moodle Perfil de Aluno Elaboração: Autor: Leticia Tonon Núcleo de Educação à Distância Telefone de Suporte: (14) 2105-0800 Ramal: 376 E-mail: nead@univem.edu.br www.ead.univem.edu.br Computing

Leia mais

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Francisco A. Rodrigues Departamento de Matemática Aplicada e Estatística - SME Conceitos básicos Classificação não-supervisionada:

Leia mais

Regressão Linear. Fabrício Olivetti de França. Universidade Federal do ABC

Regressão Linear. Fabrício Olivetti de França. Universidade Federal do ABC Regressão Linear Fabrício Olivetti de França Universidade Federal do ABC Tópicos 1. Overfitting 2. Treino e Validação 3. Baseline dos modelos 1 Overfitting Overfit Em muitos casos, a amostra de dados coletada

Leia mais

Identificação de Pontos Perceptualmente Importantes (PIP) em séries temporais de tópicos extraídos de dados textuais

Identificação de Pontos Perceptualmente Importantes (PIP) em séries temporais de tópicos extraídos de dados textuais Universidade de São Paulo Biblioteca Digital da Produção Intelectual - BDPI Departamento de Ciências de Computação - ICMC/SCC Comunicações em Eventos - ICMC/SCC 2015 Identificação de Pontos Perceptualmente

Leia mais

O usuário pode restringir dados a um determinado tipo, como números inteiros, números decimais ou texto, e definir limites para as entradas válidas.

O usuário pode restringir dados a um determinado tipo, como números inteiros, números decimais ou texto, e definir limites para as entradas válidas. , %&!', A Validação de Dados permite que você determine condições para restringir os dados a serem digitados numa ou mais células. Dessa forma, tornando sempre válidas as informações numa planilha. O usuário

Leia mais

Respostas aos Riscos Avaliados

Respostas aos Riscos Avaliados Respostas aos Riscos Avaliados Avaliação de Riscos Respostas aos Riscos Significativos Estratégia Global Plano de Auditoria NBC TA 330 Respostas do Auditor aos Riscos Avaliados O auditor deve planejar

Leia mais

Aula 3- Codificação de Canal. October 18, 2017

Aula 3- Codificação de Canal. October 18, 2017 ELE-32 Introdução a Comunicações Aula 3- Codificação de Canal October 18, 2017 1 Introdução Em muitas situações, a mensagem a ser transmitida por um sistema de comunicações é uma sequência de bits. Entretanto,

Leia mais

Implementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes

Implementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes Implementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes Luciana Kayo e Paulo Mei Prof. Dr. Marco Dimas Gubitoso Introdução Inspiração na competição When Bag of Words

Leia mais

UTILIZANDO GRUPOS NO MOODLE

UTILIZANDO GRUPOS NO MOODLE UTILIZANDO GRUPOS NO MOODLE O ambiente virtual Moodle permite a criação de grupos e agrupamentos, sendo que um grupo é constituído por um conjunto de usuários, enquanto o agrupamento é constituído por

Leia mais

TESTE A/B AKNA TREINAMENTOS AKTR AKNATR. Todos os direitos reservados. Modulo CC 1/12

TESTE A/B AKNA TREINAMENTOS AKTR AKNATR. Todos os direitos reservados. Modulo CC 1/12 TESTE A/B AKNA TREINAMENTOS AKTR02013003501 1/12 Sumário Teste A/B O que é?... 3 Para que serve?... 3 Criando o Teste A/B... 3 Trabalhando com a Ação... 7 Estatísticas...12 2/12 O que é? O Teste AB é um

Leia mais

COMPARAÇÃO DE SISTEMAS USANDO DADOS DE AMOSTRAS. Capítulo 13 do livro: The Art of Computer Systems Performance Analysis

COMPARAÇÃO DE SISTEMAS USANDO DADOS DE AMOSTRAS. Capítulo 13 do livro: The Art of Computer Systems Performance Analysis COMPARAÇÃO DE SISTEMAS USANDO DADOS DE AMOSTRAS Capítulo 13 do livro: The Art of Computer Systems Performance Analysis Uma Amostra é apenas um Exemplo As palavras inglesas sample (amostra) e example (exemplo)

Leia mais

5 Experimentos Corpus

5 Experimentos Corpus 5 Experimentos 5.1. Corpus A palavra corpus significa corpo em latim. No contexto de Aprendizado de Máquina, corpus se refere a um conjunto de dados utilizados para experimentação e validação de modelos.

Leia mais

5 Experimentos Conjunto de Dados

5 Experimentos Conjunto de Dados Experimentos 48 5 Experimentos Este capítulo apresenta o ambiente experimental utilizado para validar o método de predição do CTR proposto neste trabalho. Na seção 5.1, descrevemos a geração do conjunto

Leia mais

Reconhecimento de Padrões

Reconhecimento de Padrões Reconhecimento de Padrões André Tavares da Silva andre.silva@udesc.br Roteiro da aula Conceitos básicos sobre reconhecimento de padrões Visão geral sobre aprendizado no projeto de classificadores Seleção

Leia mais

3 Identificação de Locutor Usando Técnicas de Múltiplos Classificadores em Sub-bandas Com Pesos Não-Uniformes

3 Identificação de Locutor Usando Técnicas de Múltiplos Classificadores em Sub-bandas Com Pesos Não-Uniformes 3 Identificação de Locutor Usando Técnicas de Múltiplos Classificadores em Sub-bandas Com Pesos Não-Uniformes Neste capítulo, é apresentada uma nova proposta de combinação de múltiplos classificadores

Leia mais

Aprendizado Bayesiano Anteriormente...

Aprendizado Bayesiano Anteriormente... Aprendizado Bayesiano Anteriormente... Conceito de Probabilidade Condicional É a probabilidade de um evento A dada a ocorrência de um evento B Universidade de São Paulo Instituto de Ciências Matemáticas

Leia mais

Triangulação de Delauney

Triangulação de Delauney Triangulação de Delauney Um pedaço da superfície terrestre é chamado de terreno. Um terreno é uma superfície 2-dimensional em um espaço 3-dimensional com uma propriedade especial: cada linha vertical intercepta

Leia mais

Um Método para Melhoria de Dados Estruturados de Imóveis

Um Método para Melhoria de Dados Estruturados de Imóveis Universidade Federal de Pernambuco Centro de Informática Graduação em Ciência da Computação Um Método para Melhoria de Dados Estruturados de Imóveis Lucas Nunes de Souza Proposta de Trabalho de Graduação

Leia mais

Árvores. Thiago Martins, Fabio Gagliardi Cozman. PMR2300 / PMR3201 Escola Politécnica da Universidade de São Paulo

Árvores. Thiago Martins, Fabio Gagliardi Cozman. PMR2300 / PMR3201 Escola Politécnica da Universidade de São Paulo PMR2300 / PMR3201 Escola Politécnica da Universidade de São Paulo Árvore: estrutura composta por nós e arestas entre nós. As arestas são direcionadas ( setas ) e: um nó (e apenas um) é a raiz; todo nó

Leia mais

EET-61 Introdução a Teoria da Informação

EET-61 Introdução a Teoria da Informação EET-61 Introdução a Teoria da Informação Aula 3- Codificação de Canal October 24, 2018 1 Introdução Em muitas situações, a mensagem a ser transmitida por um sistema de comunicações é uma sequência de bits.

Leia mais

Inteligência Artificial. Raimundo Osvaldo Vieira [DComp IFMA Campus Monte Castelo]

Inteligência Artificial. Raimundo Osvaldo Vieira [DComp IFMA Campus Monte Castelo] Inteligência Artificial Raimundo Osvaldo Vieira [DComp IFMA Campus Monte Castelo] Aprendizagem de Máquina Área da Inteligência Artificial cujo objetivo é o desenvolvimento de técnicas computacionais sobre

Leia mais

Information Cascades. Ana Paula Fabrício Benevenuto

Information Cascades. Ana Paula Fabrício Benevenuto Information Cascades Ana Paula Fabrício Benevenuto Following the crowd Pessoas são influenciadas por outras Produtos que compram Atividades que participam Tecnologias que utilizam Etc. Por que uma das

Leia mais

Aprendizado de Máquina (Machine Learning)

Aprendizado de Máquina (Machine Learning) Ciência da Computação Aprendizado de Máquina (Machine Learning) Aula 09 Árvores de Decisão Max Pereira Classificação É a tarefa de organizar objetos em uma entre diversas categorias pré-definidas. Exemplos

Leia mais

MÉTODOS QUANTITATIVOS PARA CIÊNCIA DA COMPUTAÇÃO EXPERIMENTAL

MÉTODOS QUANTITATIVOS PARA CIÊNCIA DA COMPUTAÇÃO EXPERIMENTAL MÉTODOS QUANTITATIVOS PARA CIÊNCIA DA COMPUTAÇÃO EXPERIMENTAL Pedro Henrique Bragioni Las Casas Pedro.lascasas@dcc.ufmg.br Apresentação baseada nos slides originais de Jussara Almeida e Virgílio Almeida

Leia mais

Rede complexa probabilística baseada em similaridade na classificação de dados com ruídos

Rede complexa probabilística baseada em similaridade na classificação de dados com ruídos Rede complexa probabilística baseada em similaridade na classificação de dados com ruídos Robson C. da Motta, e Alneu de A. Lopes Instituto de Ciências Matemáticas e de Computação - ICMC Universidade de

Leia mais

Redes Complexas Aula 2

Redes Complexas Aula 2 Redes Complexas Aula 2 Aula passada Logística Redes e Grafos Exemplos Redes Complexas Aula de hoje Redes e classes Estrutura e características Grau, distância, clusterização Rede (ou Grafo) Abstração que

Leia mais

Créditos. SCC0173 Mineração de Dados Biológicos. Aula de Hoje. Desempenho de Classificação. Classificação IV: Avaliação de Classificadores

Créditos. SCC0173 Mineração de Dados Biológicos. Aula de Hoje. Desempenho de Classificação. Classificação IV: Avaliação de Classificadores SCC0173 Mineração de Dados Biológicos Classificação IV: Avaliação de Classificadores Créditos O material a seguir consiste de adaptações e extensões dos originais: gentilmente cedidos pelo rof. André C..

Leia mais

6 Atributos. A dívida da empresa subiu.

6 Atributos. A dívida da empresa subiu. 6 Atributos Para buscar o sentimento de um texto automaticamente precisamos encontrar boas pistas ao longo do discurso. Uma grande variedade de palavras e expressões possui conotação positiva ou negativa,

Leia mais

Aplicação de Histograma de Gradientes Orientados para detecção de hidrômetros em imagens de fundo complexo

Aplicação de Histograma de Gradientes Orientados para detecção de hidrômetros em imagens de fundo complexo Aplicação de Histograma de Gradientes Orientados para detecção de hidrômetros em imagens de fundo complexo Juliana Patrícia Detroz Professor: André Tavares da Silva Universidade do Estado de Santa Catarina

Leia mais

Especialização em Engenharia de Processos e de Sistemas de Produção

Especialização em Engenharia de Processos e de Sistemas de Produção Especialização em Engenharia de Processos e de Sistemas de Produção Projetos de Experimento e Confiabilidade de Sistemas da Produção Prof. Claudio Luis C. Frankenberg 3ª parte Conforme foi apresentado

Leia mais

Tutorial de Administração de sites do Portal C3

Tutorial de Administração de sites do Portal C3 Tutorial de Administração de sites do Portal C3 Carlos Magno da Rosa Graduando Sistemas de Informação Estagiário Centro de Ciências Computacionais Sumário Sumário... 2 1-Apresentação Geral... 3 3-Componentes

Leia mais

Um Algoritmo de Diagnóstico Distribuído para Redes de Topologia Dinâmica

Um Algoritmo de Diagnóstico Distribuído para Redes de Topologia Dinâmica Um Algoritmo de Diagnóstico Distribuído para Redes de Topologia Dinâmica Leandro Pacheco de Sousa 1 Instituto de Informática Universidade Federal do Paraná (UFPR) Curitiba PR Brasil leandrops@inf.ufpr.br

Leia mais

Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas

Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas Wrapper Filtros Muitos algoritmos de AM são projetados de modo a selecionar os

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Plano de Aula Aprendizagem de Máquina Bagging,, Support Vector Machines e Combinação de Classificadores Alessandro L. Koerich Uma visão geral de diversos tópicos relacionados à Aprendizagem de Máquina:

Leia mais

6 Aplicações Detalhes da Implementação

6 Aplicações Detalhes da Implementação 6 Aplicações Neste trabalho, é importante implementar aplicações de interação em tempo real para que seja possível avaliar a aplicabilidade das técnicas de Visão Computacional descritas ao longo dos capítulos

Leia mais

Classificadores Lineares

Classificadores Lineares Universidade Federal do Paraná (UFPR) Bacharelado em Informática Biomédica Classificadores Lineares David Menotti www.inf.ufpr.br/menotti/ci171-182 Hoje Funções Discriminantes Lineares Perceptron Support

Leia mais

Aprendizado de Máquina (Machine Learning)

Aprendizado de Máquina (Machine Learning) Ciência da Computação (Machine Learning) Aula 01 Motivação, áreas de aplicação e fundamentos Max Pereira Nem todo conhecimento tem o mesmo valor. O que torna determinado conhecimento mais importante que

Leia mais

Implementação de um sistema de validação estatística configurável de dados

Implementação de um sistema de validação estatística configurável de dados Implementação de um sistema de validação estatística configurável de dados Eduardo Dias Filho Supervisores: João Eduardo Ferreira e Pedro Losco Takecian 16 de novembro de 2014 Introdução Table of Contents

Leia mais

PLANO DE ENSINO EXPORTAÇÃO DE MATERIAIS DO EUREKA E IMPORTAÇÃO PARA O BLACKBOARD

PLANO DE ENSINO EXPORTAÇÃO DE MATERIAIS DO EUREKA E IMPORTAÇÃO PARA O BLACKBOARD PLANO DE ENSINO EXPORTAÇÃO DE MATERIAIS DO EUREKA E IMPORTAÇÃO PARA O BLACKBOARD Você sabia que é possível exportar alguns arquivos do Eureka para uma sala de disciplina no ambiente Blackboard? Neste tutorial,

Leia mais

White Paper. Usando dados de qualidade para obter vantagem competitiva

White Paper. Usando dados de qualidade para obter vantagem competitiva Usando dados de qualidade para obter vantagem competitiva Sumário Introdução... 1 Vantagem competitiva e a dependência sobre os dados... 1 Geração e crescimento de receita... 1 Eficiência operacional...

Leia mais

Modelo de previsão de partida de ônibus utilizando cadeias de Markov de alcance variável

Modelo de previsão de partida de ônibus utilizando cadeias de Markov de alcance variável Modelo de previsão de partida de ônibus utilizando cadeias de Markov de alcance variável Maria das Vitórias Alexandre Serafim 1 Manuel Rivelino Gomes de Oliveira 2 Divanilda Maia Esteves 3 Paulo José Duarte-Neto

Leia mais

Códigos de blocos lineares. Outubro de 2017

Códigos de blocos lineares. Outubro de 2017 Códigos de blocos lineares Outubro de 2017 Vamos introduzir alguns conceitos sobre códigos de blocos lineares. Definições: Deve-se assumir que a informação saída da fonte de informação é da forma binária

Leia mais

Análise de métodos de Inferência Ecológica

Análise de métodos de Inferência Ecológica Análise de métodos de Inferência Ecológica em dados de redes sociais Gustavo Penha 12, Thiago N. C. Cardoso 2, Ana Paula Couto da Silva 1, Mirella M. Moro 1 Outubro de 2016 1 / 13 Motivação Motivação Redes

Leia mais

O Guia Definitivo para Profissionais de Marketing de Conteúdo. por SEMrush

O Guia Definitivo para Profissionais de Marketing de Conteúdo. por SEMrush O Guia Definitivo para Profissionais de Marketing de Conteúdo por SEMrush Tabela de conteúdo Introdução Para quem é esse guia? 1 2 3 4 5 Análise de conteúdo Auditoria de Conteúdo Otimização do Conteúdo

Leia mais

Análise e Modelagem de Desempenho de Sistemas de Computação. Profa. Jussara M. Almeida 1 o Semestre de 2014

Análise e Modelagem de Desempenho de Sistemas de Computação. Profa. Jussara M. Almeida 1 o Semestre de 2014 Análise e Modelagem de Desempenho de Sistemas de Computação Profa. Jussara M. Almeida 1 o Semestre de 2014 Modelo de Sistema Serviço Modelo: representação do comportamento do desempenho do sistema Etapas

Leia mais

DATA MINING & MACHINE LEARNING (I) Thiago Marzagão

DATA MINING & MACHINE LEARNING (I) Thiago Marzagão DATA MINING & MACHINE LEARNING (I) Thiago Marzagão problema de trabalhar c/ textos: dimensionalidade A quantidade de colunas cresce rapidamente com a quantidade de documentos problema de trabalhar c/ textos:

Leia mais

DCBD. Avaliação de modelos. Métricas para avaliação de desempenho. Avaliação de modelos. Métricas para avaliação de desempenho...

DCBD. Avaliação de modelos. Métricas para avaliação de desempenho. Avaliação de modelos. Métricas para avaliação de desempenho... DCBD Métricas para avaliação de desempenho Como avaliar o desempenho de um modelo? Métodos para avaliação de desempenho Como obter estimativas confiáveis? Métodos para comparação de modelos Como comparar

Leia mais

Fundamentos de Mineração de Dados

Fundamentos de Mineração de Dados Fundamentos de Mineração de Dados Prof. Ricardo Fernandes ricardo.asf@ufscar.br O que é Mineração de Dados? Uso de ferramentas matemáticas, clássicas ou inteligentes, no processo de descoberta de conhecimento

Leia mais

Primeiro Exercício programa: Como o Google ordena páginas. MAP-2121 para EPUSP

Primeiro Exercício programa: Como o Google ordena páginas. MAP-2121 para EPUSP Primeiro Exercício programa: Como o Google ordena páginas MAP-2121 para EPUSP 1 Instruções gerais Os exercícios computacionais pedidos na disciplina Cálculo Numérico têm por objetivo fundamental familiarizar

Leia mais

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica REDES NEURAIS ARTIFICIAIS MÁQUINA DE VETOR DE SUPORTE (SUPPORT VECTOR MACHINES) Prof. Dr. André A. P. Biscaro 1º Semestre de 2017 Introdução Poderosa metodologia para resolver problemas de aprendizagem

Leia mais

Encontrando Comunidades

Encontrando Comunidades Capítulo 3 Encontrando Comunidades A transposição do conceito de comunidade, tal qual nós o conhecemos, para o ambiente virtual tem sido uma prática implementada em diversas aplicações, e.g Facebook, Linkedid

Leia mais

Modelos Probabilísticos

Modelos Probabilísticos Modelos Probabilísticos Somente para lembrar... Modelos são extremamente importantes para o estudo do desempenho de um sistema antes de implementá-lo na prática! Foguete proposto tem confiabilidade? Devemos

Leia mais

Edge Rank: Faça o Facebook trabalhar a seu favor. Edge Rank: Faça o Facebook trabalhar a seu favor

Edge Rank: Faça o Facebook trabalhar a seu favor. Edge Rank: Faça o Facebook trabalhar a seu favor Edge Rank: Faça o Facebook trabalhar a seu favor Nos últimos meses, muitos "donos" de Fan Pages do Facebook vivenciaram uma diminuição significativa no Alcance Total (Total Reach) especificamente, o alcance

Leia mais

Aprendizado de Máquina

Aprendizado de Máquina Aprendizado de Máquina Árvores de Decisão Luiz Eduardo S. Oliveira Universidade Federal do Paraná Departamento de Informática http://lesoliveira.net Luiz S. Oliveira (UFPR) Aprendizado de Máquina 1 / 28

Leia mais

Combinação de Classificadores (seleção)

Combinação de Classificadores (seleção) Combinação de Classificadores (seleção) André Tavares da Silva andre.silva@udesc.br Livro da Kuncheva Roteiro Seleção de classificadores Estimativa independente de decisão Estimativa dependente de decisão

Leia mais

PRECISÃO NO CÁLCULO DE ÁREAS PLANAS POR PERFILAMENTO A LASER 2: AVALIAÇÃO DA PRECISÃO PLANIMÉTRICA E ALTIMÉTRICA DE CADA PONTO

PRECISÃO NO CÁLCULO DE ÁREAS PLANAS POR PERFILAMENTO A LASER 2: AVALIAÇÃO DA PRECISÃO PLANIMÉTRICA E ALTIMÉTRICA DE CADA PONTO PRECISÃO NO CÁLCULO DE ÁREAS PLANAS POR PERFILAMENTO A LASER 2: AVALIAÇÃO DA PRECISÃO PLANIMÉTRICA E ALTIMÉTRICA DE CADA PONTO Fabricio Muller 1, Anderson Roberto da Silva 2, Roberto Eugenio Bertol 3,

Leia mais

Manual do Professor AVA - Moodle/Unesp (versão 3.0) Grupos e agrupamentos

Manual do Professor AVA - Moodle/Unesp (versão 3.0) Grupos e agrupamentos Manual do Professor AVA - Moodle/Unesp (versão 3.0) Grupos e agrupamentos O Moodle permite trabalhar com grupos entre os alunos, não necessariamente a composição dos grupos que irão desenvolver uma atividade

Leia mais

Grafos: conceitos básicos e métricas

Grafos: conceitos básicos e métricas Grafos: conceitos básicos e métricas Principais Propriedades em Redes Complexas Definição de termos básicos em um grafo qualquer, nos quais as propriedades estruturais de redes complexas são baseadas Rede

Leia mais

FÓRUM. Fórum AMBIENTE VIRTUAL DE APRENDIZAGEM TUTORIAL DO. Autor(es) Natália Regina de Souza Lima, Scarlat Pâmela Silva

FÓRUM. Fórum AMBIENTE VIRTUAL DE APRENDIZAGEM TUTORIAL DO. Autor(es) Natália Regina de Souza Lima, Scarlat Pâmela Silva TUTORIAL DO FÓRUM AMBIENTE VIRTUAL DE APRENDIZAGEM Fórum Autor(es) Natália Regina de Souza Lima, Scarlat Pâmela Silva 1 1. O que é um Fórum 2. Como criar um Fórum de discussão 3. O que é uma linha de discussão

Leia mais

3. Resolução de problemas por meio de busca

3. Resolução de problemas por meio de busca Inteligência Artificial - IBM1024 3. Resolução de problemas por meio de busca Prof. Renato Tinós Local: Depto. de Computação e Matemática (FFCLRP/USP) 1 Principais Tópicos 3. Resolução de problemas por

Leia mais

Marina Andretta. 10 de outubro de Baseado no livro Introduction to Linear Optimization, de D. Bertsimas e J. N. Tsitsiklis.

Marina Andretta. 10 de outubro de Baseado no livro Introduction to Linear Optimization, de D. Bertsimas e J. N. Tsitsiklis. Solução básica viável inicial Marina Andretta ICMC-USP 10 de outubro de 2016 Baseado no livro Introduction to Linear Optimization, de D. Bertsimas e J. N. Tsitsiklis. Marina Andretta (ICMC-USP) sme0211

Leia mais

Thiago Christiano Silva

Thiago Christiano Silva Thiago Christiano Silva Conteúdo Conceitos Relevantes Problemas de Otimização Conceitos de Estabilidade e Convergência Teoremas de Lyapunov Rede Neural de Hopfield Aplicações do modelo de Hopfield Clusterização

Leia mais

5 Agregação das Reservas das Entidades

5 Agregação das Reservas das Entidades 5 Agregação das Reservas das Entidades Neste capítulo é apresentado o procedimento de agregação das reservas das entidades. É importante ressaltar que as entidades probabilísticas sofrem agregação probabilística,

Leia mais

Sistemas de Recomendação o que, quando, onde, como você quer, e nem sabia

Sistemas de Recomendação o que, quando, onde, como você quer, e nem sabia Comprar livros nos antigamente Sistemas de Recomendação o que, quando, onde, como você quer, e nem sabia Insubstituível Comprar música nos antigamente Ler notícia nos antigamente Encontrar lugares Compra

Leia mais

SUPPORT VECTOR MACHINE - SVM

SUPPORT VECTOR MACHINE - SVM SUPPORT VECTOR MACHINE - SVM Definição 2 Máquinas de Vetores Suporte (Support Vector Machines - SVMs) Proposto em 79 por Vladimir Vapnik Um dos mais importantes acontecimentos na área de reconhecimento

Leia mais

3 Técnica Baseada em Treinamento e Cascata de Classificadores

3 Técnica Baseada em Treinamento e Cascata de Classificadores 3 Técnica Baseada em Treinamento e Cascata de Classificadores 3.1. Introdução A utilização de algoritmos para a extração de características de objetos e a geração de classificadores em cascata capazes

Leia mais