Proposta para Grupo de Trabalho GT-UniT: Monitoramento do Universo Torrent. Antônio Marinho Pilla Barcellos 2009.10.13

Documentos relacionados
GT Computação Colaborativa (P2P)

Observando o Universo BitTorrent Através de Telescópios

Protocolo Bittorrent

Teleprocessamento e Redes (MAB-510) Gabarito da Segunda Lista de Exercícios 01/2010

3 SCS: Sistema de Componentes de Software

3 SERVIÇOS IP. 3.1 Serviços IP e alguns aspectos de segurança

3 Um Framework Orientado a Aspectos para Monitoramento e Análise de Processos de Negócio

FIREWALL. Prof. Fabio de Jesus Souza. Professor Fabio Souza

1

Roteiro. Arquitetura. Tipos de Arquitetura. Questionário. Centralizado Descentralizado Hibrido

Curso Tecnológico de Redes de Computadores 5º período Disciplina: Tecnologia WEB Professor: José Maurício S. Pinheiro V

SISTEMA DE GESTÃO DE PESSOAS SEBRAE/TO UNIDADE: GESTÃO ESTRATÉGICA PROCESSO: TECNOLOGIA DA INFORMAÇÃO

Intranets. FERNANDO ALBUQUERQUE Departamento de Ciência da Computação Universidade de Brasília 1.INTRODUÇÃO

Rastreando fluxos para detecção de eventos em redes

Sistemas Distribuídos

A memória é um recurso fundamental e de extrema importância para a operação de qualquer Sistema Computacional; A memória trata-se de uma grande

SISTEMAS DISTRIBUÍDOS

CONCEITOS INICIAIS. Agenda A diferença entre páginas Web, Home Page e apresentação Web;

Firewall. Professor: João Paulo de Brito Gonçalves Disciplina: Serviços de Redes. Campus Cachoeiro Curso Técnico em Informática

FileMaker Pro 14. Utilização de uma Conexão de Área de Trabalho Remota com o FileMaker Pro 14

SISTEMAS DISTRIBUÍDOS

RESPOSTA AO QUESTIONAMENTO FORMULADO POR EMPRESA INTERESSADA NO CERTAME.

Forneça a próxima onda de inovações empresariais com o Open Network Environment

Unidade Curricular: SCOM Ano letivo: 2014/2015 Alunos: Diogo Guimarães Pedro Brito

GARANTIA DA QUALIDADE DE SOFTWARE

MASSACHUSETTS INSTITUTE OF TECHNOLOGY Sloan School of Management

CONCORRÊNCIA AA Nº 05/2009 BNDES ANEXO X PROJETO BÁSICO: DESCRIÇÃO DOS PROCESSOS DE TI

Multiplexador. Permitem que vários equipamentos compartilhem um único canal de comunicação

MÓDULO 8 ARQUITETURA DOS SISTEMAS DE BANCO DE DADOS

FileMaker Pro 13. Utilização de uma Conexão de Área de Trabalho Remota com o FileMaker Pro 13

Componentes de um sistema de firewall - I

Analista de Sistemas Ambiente GRID para física experimental de altas energias

Introdução a computação móvel. Middlewares para Rede de Sensores sem Fio. Uma avaliação na ótica de Adaptação ao Contexto

Processos de Desenvolvimento de Software

Resumo. Introdução História Caracteristicas Exemplos Arquitetura Distribuição Vertical vs Distribuição Horizontal Segurança Conclusão

Características de Firewalls

Introdução à Computação

7.Conclusão e Trabalhos Futuros

Entendendo como funciona o NAT

CAMADA DE TRANSPORTE

SISTEMAS DISTRIBUÍDOS

3 Classificação Resumo do algoritmo proposto

Profissionais de Alta Performance

Bancos de dados distribuídos Prof. Tiago Eugenio de Melo

TRABALHO DE DIPLOMAÇÃO Regime Modular ORIENTAÇÕES SOBRE O ROTEIRO DO PROJETO FINAL DE SISTEMAS DE INFORMAÇÕES

Como medir a velocidade da Internet?

Técnicas e ferramentas de ataque. Natiel Cazarotto Chiavegatti

ISO/IEC 12207: Gerência de Configuração

Histórico da Revisão. Versão Descrição Autor. 1.0 Versão Inicial

INFLUÊNCIA DA TECNOLOGIA DA INFORMAÇÃO NA GESTÃO DA ÁGUA E ESGOTO

PEER DATA MANAGEMENT SYSTEM

IBM Managed Security Services for Agent Redeployment and Reactivation

Especificações da oferta Gerenciamento de dispositivos distribuídos: Gerenciamento de ativos

5 Mecanismo de seleção de componentes

GUIA DE ORIENTAÇÕES ROTEIRO DE CONFIGURAÇÃO DO SOFTWARE CRM PROFESSIONAL ANEXO III ROTEIRO DE CONFIGURAÇÃO - CRM PROFESSIONAL

Instruções de operação

Faculdade de Tecnologia SENAC Goiás. Disciplina: Gerenciamento de Rede de Computadores. Goiânia, 16 de novembro de 2014.

APLICAÇÃO REDE APLICAÇÃO APRESENTAÇÃO SESSÃO TRANSPORTE REDE LINK DE DADOS FÍSICA 1/5 PROTOCOLOS DE REDE

QUALIFICAÇÃO E PARTICIPAÇÃO DE PROFESSORES DAS UNIDADES DE ENSINO NA ELABORAÇÃO DE PROGRAMAS FORMAIS DE EDUCAÇÃO AMBIENTAL

Professor: Macêdo Firmino Disciplina: Sistemas Operacionais de Rede

Segurança de Redes. Firewall. Filipe Raulino

Introdução ao Modelos de Duas Camadas Cliente Servidor

Capítulo 8 - Aplicações em Redes

FACULDADE DE ENGENHARIA DE COMPUTAÇÃO. PROJETO FINAL I e II PLANO DE TRABALHO <NOME DO TRABALHO> <Nome do Aluno> <Nome do Orientador>

ADM041 / EPR806 Sistemas de Informação

PROCESSO DE DESENVOLVIMENTO DE SOFTWARE. Modelos de Processo de Desenvolvimento de Software

Universidade Paulista

Trilhas Técnicas SBSI

Firewall. Alunos: Hélio Cândido Andersson Sales

Arquitetura dos Sistemas de Informação Distribuídos

Segurança Internet. Fernando Albuquerque. (061)

Disciplina: Introdução à Informática Profª Érica Barcelos

Projeto de Redes Top-Down

Administração de Sistemas de Informação Gerenciais

INFORMÁTICA FUNDAMENTOS DE INTERNET. Prof. Marcondes Ribeiro Lima

Software de segurança em redes para monitoração de pacotes em uma conexão TCP/IP

TI Aplicada. Aula 02 Áreas e Profissionais de TI. Prof. MSc. Edilberto Silva prof.edilberto.silva@gmail.com

MANUAL TÉCNICO ISPBACKUP

Módulo 15 Resumo. Módulo I Cultura da Informação

Gerência de Redes NOC

TRIBUTAÇÃO NAS NUVENS Uma Regulação em Debate

TERMO DE REFERÊNCIA (TR) GAUD VAGA

Faculdades Santa Cruz - Inove. Plano de Aula Base: Livro - Distributed Systems Professor: Jean Louis de Oliveira.

DAS Inteligência Artificial Aplicada à Controle de Processos e Automação Industrial

Tabela de Símbolos. Análise Semântica A Tabela de Símbolos. Principais Operações. Estrutura da Tabela de Símbolos. Declarações 11/6/2008

Política de uso da Federação CAFe: provedores de serviço. DAGSer Diretoria Adjunta de Gestão de Serviços

Histórico de Revisão Data Versão Descrição Autor

Segurança da Informação

Documento de Projeto Piloto GT em Configuração de Redes. Plano de Implantação

Conteúdo. Disciplina: INF Engenharia de Software. Monalessa Perini Barcellos. Centro Tecnológico. Universidade Federal do Espírito Santo

4. Qual seria o impacto da escolha de uma chave que possua letras repetidas em uma cifra de transposição?

Notas da Aula 17 - Fundamentos de Sistemas Operacionais

Transcrição:

Proposta para Grupo de Trabalho GT-UniT: Monitoramento do Universo Torrent Antônio Marinho Pilla Barcellos 2009.10.13

1. Título GT-UniT: Monitoramento do Universo Torrent 2. Coordenador Prof. Antônio Marinho Pilla Barcellos Instituto de Informática (INF) Universidade Federal do Rio Grande do Sul (UFRGS) Av. Bento Gonçalves, 9500 - Campus do Vale - Bloco IV Bairro Agronomia 91501-970 - Porto Alegre, RS Brasil Telefone: (51) 3308-7748 URL da Homepage: http://www.inf.ufrgs.br/~marinho CV Lattes em http://lattes.cnpq.br/2784404872572914 Prof. Luciano Paschoal Gaspary (Coordenador Adjunto) CV Lattes em http://lattes.cnpq.br/3059640410928425 3. Resumo BitTorrent é uma aplicação P2P de grande popularidade, tendo se tornado um padrão de facto no compartilhamento de arquivos. Apesar de sua ampla adoção, pouco ainda se sabe sobre o funcionamento real do universo de redes BitTorrent existentes. Informações podem ser úteis para, por exemplo, detecção e dimensionamento de certas atividades ilícitas na Internet, projeto de novos aplicativos P2P e informações para campanhas de marketing. Propõe-se a criação de uma arquitetura escalável e flexível para monitoramento do Universo de redes BitTorrent, serviço ainda inexistente na RNP ou em outras redes acadêmicas. Os resultados do GT-UniT, de natureza aplicada e experimental, serão concretizados através do projeto, implementação e avaliação do protótipo que representa a arquitetura de monitoramento. 4. Parcerias Prof. Francisco V. Brasileiro (CV Lattes em http://lattes.cnpq.br/5957855817378897). Laboratório de Sistemas Distribuídos (LSD), Departamento de Sistemas e Computação, Universidade Federal de Campina Grande (UFCG). A pareceria se dará através das seguintes formas: (a) cooperação técnica, pois há reconhecida competência sobre a tecnologia Bit- Torrent naquele laboratório; 2

(b) execução de monitores, durante a fase de testes; (c) compartilhamento dos dados brutos obtidos com medições efetuadas; (d) análise e validação dos resultados, durante processo de teste do protótipo. Para implementação mais efetiva da parceria, um dos membros da equipe poderá ser alocado ao LSD/UFCG. 5. Duração do projeto 12 meses 6. Sumário executivo 6.1. Contexto e Motivação O grande interesse em Redes P2P por parte da comunidade científica tem sido acompanhado por incontestáveis exemplos de aplicações de sucesso na Internet. Através da descentralização e algoritmos eficientes, as redes P2P permitem que recursos sejam compartilhados entre usuários de forma escalável. A aplicação responsável pela popularização de arquiteturas P2P foi o compartilhamento de arquivos, com diversos exemplos de tecnologias que foram empregadas por milhões de usuários no mundo todo. Nessa classe de aplicações, a tecnologia BitTorrent ganhou maior destaque, sendo responsável por grande parte do volume de tráfego na Internet. Dentre as redes de compartilhamento P2P, BitTorrent é importante por três razões: pela sua popularidade na Internet [Schulze and Mochalski, 2009], com mais volume de tráfego do que HTTP; pelo grande interesse da comunidade científica sobre o funcionamento desse protocolo [Fan et al., 2009]; e por seus princípios estarem sendo usados para criação de novos sistemas, como streaming de vídeo [Silverston et al., 2008]. Apesar de sua ampla adoção, pouco ainda se sabe sobre o funcionamento real das redes BitTorrent existentes. Informações sobre o comportamento dos usuários, configurações empregadas nos agentes e capacidade das redes podem ser úteis por uma série de razões. Por exemplo, informações sobre popularidade de conteúdo e preferências de usuários podem ser bastante úteis para amparar campanhas de publicidade. Podem ser particularmente úteis para detecção de comportamento malicioso na rede. Podem também ajudar desenvolvedores a melhorarem suas aplicações BitTorrent e a criarem novas aplicações P2P. Apesar disso, é senso comum que as redes P2P têm sido usadas como base para atividades ilícitas. Exemplos são a disseminação de malware, a cópia não autorizada de conteúdo digital protegido por direitos autorais e ataques de negação de serviço a usuários. Embora tais atividades ilícitas causem prejuízo à sociedade, não é possível resolver o problema eliminando-se as redes P2P. Ao contrário, os avanços tecnológicos advindos das redes como BitTorrent, e a adoção dessa tecnologia pela sociedade, são irreversíveis. Evoluir, portanto, significa entender melhor o funcionamento das redes P2P e seus usuários, detectar atividades ilícitas e habilitar o projeto de algoritmos, protocolos e arquiteturas inovadores para 3

combatê-las. Por essas razões, seria interessante contar com metodologias capazes de monitorar o funcionamento de redes BitTorrent e extrair confiavelmente informações sobre as mesmas. A inexistência de soluções de monitoramento para redes BitTorrent (e P2P em geral) é parcialmente explicado pelas dimensões e complexidade dessas redes. A ausência de uma entidade central e o nível de autonomia conferido a usuários, que formam uma rede em nível de aplicação em escala planetária, levam a oportunidades limitadas de observação. Portanto, antes que tais vantagens possam ser concretizadas, há uma série de desafios científicos associados a serem resolvidos, como por exemplo a escalabilidade da solução, a baixa intrusão nas redes e a abrangência das redes investigadas. Lidar com tais desafios garante um caráter inovador às tecnologias e ao protótipo desenvolvidos no âmbito deste GT. Neste Grupo de Trabalho, propõe-se a criação de uma arquitetura de monitoramento de redes BitTorrent. Tal arquitetura será construída a partir da investigação de estratégias escaláveis para monitoramento. As estratégias e arquitetura correspondente devem ser capazes de dimensionar o volume e a natureza de compartilhamento de arquivos na Internet, mapeando o comportamento de usuários e determinando aspectos de desempenho. O objetivo fundamental do GT é criar um serviço de monitoramento de redes BitTorrent. Para tal, no primeiro ano, serão investigadas formas de se extrair informações do universo de redes BitTorrent existentes. Os resultados do GT, de natureza aplicada e experimental, serão concretizados através do projeto, implementação e avaliação de uma arquitetura de monitoramento. 6.2. Universo Torrent A seguir, sistematizamos a visão do Universo BitTorrent. Ele é composto de um conjunto de enxames (swarms), pares, rastreadores (trackers) e conteúdos. Um par é um agente de usuário que executa o protocolo e participa de um ou mais enxames, de acordo com o conteúdo que ele deseja colaborar. É um semeador quando ele tem integralmente uma cópia do conteúdo e um sugador caso contrário. Para entrar em um enxame, um par tipicamente contata o rastreador e obtém uma lista de pares IP:porta (chamada peerlist ) de também são membros do mesmo enxame. O rastreador atua como um ponto de encontro entre pares interessados no mesmo conteúdo. Há duas formas adicionais de se descobrir pares. A primeira, denominada Peer Exchange (PEX), permita a troca de listas (de pares) entre pares, enquanto a segunda, geralmente denominada trackerless, permite que pares encontrem outros pares através de uma tabela de dispersão distribuída (DHT, ou Distributed Hash Table). Conteúdo significa conteúdo digital, ao invés de conteúdo informacional. O primeiro é feito de um conjunto específico de arquivos digitais, enquanto o segundo se refere à informação propriamente dita nos arquivos. Por exemplo, dois torrents podem se referir à mesma música, mas um está codificado em MP3, e outro em OGG. O mesmo conteúdo informacional pode aparecer em diferentes conteúdos digitais, tais como um único álbum e como parte de uma discografia. Outro exemplo é o de um arquivo fonte, tipo cabeçalho, que pode ser encontrado em diferentes pacotes de software de código 4

aberto. Conteúdo compartilhado é organizado em peças. Uma descrição detalhada do funcionamento do protocolo pode ser encontrada em [Konrath et al., 2007]. Para fazer parte de um enxame, um agente de usuário se vale dos metadados disponíveis no arquivo torrent previamente carregado. Este arquivo é estruturado na forma de um dicionário, como segue. A entrada info contem informação sobre peças (para cada peça, seu hash e tamanho) e arquivos (nomes e tamanhos). O hash é usado para verificar a integridade de cada peça quando seu download é completado. Todas as peças tem o mesmo tamanho exceto, possivelmente, a última, que pode variar de acordo com o número de bytes restantes no conteúdo digital. Os primeiros 20 bytes codificados na entrada info formam o info_hash, que é empregado para identificar unicamente o torrent. As entradas announce e announce-list armazenam, respectivamente, o endereço do rastreador e uma lista opcional de rastreadores adicionais. A lista completa de entradas em um arquivo torrent pode ser encontrada em http://bittorrent.org/beps/bep_0003.html. Para distribuir um conteúdo, um par gera um arquivo torrent (definindo um conjunto de arquivos, número de peças e lista de rastreadores) e torna-o público. Torrents são tipicamente disponibilizados em sítios dedicados a promover o compartilhamento de arquivos em BitTorrent, aos quais denominamos de comunidades. Exemplos de comunidades são Mininova e isohunt. Além de publicar arquivos, algumas comunidades mantém rastreadores também. Comunidades podem ser fechadas, caso em que acesso é restrito a usuários cadastrados. Algumas comunidades, tais como Btjunkie, atuam mais como agregadores de informações de outras comunidades do que comunidades propriamente ditas. A Figure 1 ilustra o Universo BitTorrent, apresentando três cenários que demonstram combinações de conteúdos, rastreadores, e pares. Primeiro, swarm1, que compartilha content1, mostra o caso em que um dado conteúdo é compartilhado por um único enxame. Segundo, swarm2 e swarm3 ilustram o caso onde enxames possuem pares em comum. Note que tais enxames são completamente independentes. Por fim, swarm4 e swarm5 exemplificam o caso em que dois enxames independentes compartilham o mesmo conteúdo. Esta situação surge em dois casos: (a) quando o tamanho das peças é diferente entre os enxames (levando a valores distintos de infohash); ou (b) quando o tamanho de peça é o mesmo, porém o conjunto de rastreadores é mutuamente exclusivo. 5

Figure 1 - Exemplo ilustrando componentes do Universo Torrent 6.3. Estratégias de monitoramento No projeto da arquitetura de monitoramento do Universo Torrent, acima descrito, é necessário levar em conta os estudos anteriores, particularmente de maneira a superar os desafios em termos de recursos (largura de banda, processamento, armazenamento em disco e memória principal) demandados. A seguir, são analisados de forma sucinta os trabalhos relacionados ao GT-UniT, por descreverem estudos ou medições realizados em redes BitTorrent ou, em particular, propostas de metodologias para extração de informações dessas redes. A primeira abordagem é o monitoramento passivo de rede física, inspecionando pacotes em geral que trafegam em certos enlaces e associando-os ao protocolo BitTorrent. Por exemplo, [Schulze and Mochalski, 2009] é um relatório geral sobre classes de tráfego, elaborado por uma empresa (ipoque) com base em registros (em alto nível) feitos por provedores de Internet. Nesta abordagem os pacotes são tipicamente gravados em um log para processamento off-line. Como vantagens, é possível observar tráfego de pares mesmo que protegidos por firewalls, não utilizar recursos de rede e não ser intrusivo. Por outro lado, a estratégia necessita alto poder computacional para inspeção e não consegue inspecionar o tráfego quando o mesmo está criptografado. A limitação mais importante dessa estratégia é que ela só pode ser implantada em redes as quais se possui acesso completo e irrestrito. A segunda abordagem está baseada na coleta e análise de logs de rastreadores, como em [Izal et al., 2004] e [Stutzbach and Rejaie, 2006]. Embora seja não intrusiva, demande poucos recursos computacionais e registre a participação de pares protegidos por firewalls, essa abordagem depende do apoio dos administradores de cada um dos rastreadores monitorados, que precisam usar localmente uma ferramenta como [Frost, 2009]. Na prática, isso é viável apenas para trabalhos de escopo limitado, como são os casos mencionados. Além disso, mesmo que administradores cooperem, usu- 6

almente o log é submetido a um processo de anonimização, o que requer um esforço manual do administrador, e diminui a riqueza dos dados. Diferentemente das anteriores, a terceira abordagem é ativa: baseia-se no uso de um agente instrumentado para contatar periodicamente um rastreador que gerencia um enxame de interesse, ou obter dados de uma página de informações disponibilizada pelo rastreador. A cada contato, o agente monitor pode obter informações sobre um ou mais enxames. Um exemplo é [Bellissimo et al., 2004]. A quarta abordagem se baseia em instrumentar agentes de usuário para conectar a (amostragens de) pares em um enxame e extrair informações dos mesmos. Exemplos de trabalhos nessa categoria são [Dhungel et al., 2008], [Dale and Liu, 2007], [Legout et al., 2007], [Legout et al., 2006], [Erman et al., 2004] e [Isdal et al., 2007]. Toma-se como entrada endereços de rastreadores que controlam o enxame de interesse, a partir dos quais pode-se obter gradualmente os endereços IPs dos pares. Uma variação da abordagem é quanto à participação efetiva na troca de peças (download). As abordagens anteriores têm foco no acompanhamento de enxames individuais, e não observam comunidades como um todo. Exemplos de informações que podem ser potencialmente extraídas de comunidades são número de torrents totais na comunidade, taxa diária de torrents adicionados e número de usuários online. Em [Andrade et al., 2005] é proposta a investigação de comunidades de BitTorrent com a utilização de crawlers que fazem a varredura das páginas hospedeiras das comunidades, assumindo sua disponibilidade. As páginas contêm informação referente aos enxames que os rastreadores estão coordenando. No estudo em [Pouwelse et al., 2005], objetivo do trabalho foi determinar (i) o número de usuários; (ii) a disponibilidade dos servidores e rastreadores; (iii) o desempenho de downloads; (iv) o tempo de vida de um conteúdo; e (v) o nível de poluição e o esforço dos moderadores para identificar e banir usuários mal intencionados que inserem conteúdo poluído. Para o estudo, foram utilizados dois componentes de software. O primeiro é responsável pelo monitoramento dos elementos centrais do sistema, ou seja, o rastreador e os portais das comunidades, com três funções: verificar a disponibilidade e os tempos de respostas destes elementos ao longo do tempo; varrer páginas HTML e obter todos os torrents disponíveis; contatar os rastreadores responsáveis pelos enxames e verificar seu estado. O segundo componente é responsável pelo monitoramento dos pares dos enxames, verificando o lançamento de novos torrents, obtendo listas de pares participantes do enxame, e contatando os pares periodicamente para verificar o progresso do download e o tempo de sessão. O foco do trabalho foram os resultados e não uma metodologia empregada. Para tal, as estratégias não são eficientes ou escaláveis: para executar o monitoramento, foi necessário um supercomputador com 100 nodos, com grande quantidade de espaço em disco e largura de banda. Além disso, mesmo em uma comunidade única, as informações são limitadas, não havendo um correlacionamento mais apurado entre comunidade, torrents e pares. O segundo trabalho, apresentado por [Iosup et al., 2006], introduz um arcabouço para monitoramento de redes BitTorrent chamado de MultiProbe. Este arcabouço é composto por três partes. A primeira, de pré-processamento, é responsável por investigar uma página típica de torrents, no caso Mininova, e colher os torrents com maior quan- 7

tidade de usuários. A segunda parte é o módulo de medições, responsável por medir as redes BitTorrent e armazenar os resultados. Por fim, o último módulo é responsável pelo pós-processamento, onde são identificadas características de banda e localidade. Para realizar essas medições, uma quantidade de recurso computacional muito grande foi utilizada. Os resultados obtidos tiveram foco em análise baseada em localização, como um ordenamento do número de usuários e quantidade de dados transmitidos classificado por região e por país. Por fim, o trabalho em [Chow et al., 2007] propõe uma forma de monitorar automaticamente enxames BitTorrent para detecção de pirataria. Para concretizar sua proposta, os autores produziram uma ferramenta, denominada BTM. O estudo é limitado em uma série de aspectos; por exemplo, a proposta não é flexível quanto à obtenção dos torrents, inclui tarefas que exigem intervenção manual, e o monitoramento de pares é capaz de acompanhar apenas 50 pares de cada vez. Não são tratadas questões como a obtenção de pares junto ao rastreador nem a conexão com pares protegidos por NAT ou firewall. Os autores não indicam como foi feita a análise dos enxames nem que tipo de informação sua estratégia é capaz de obter. As propostas vistas acima possuem seus méritos relativos, conforme analisado. No contexto do GT-UniT, as abordagens que demandam acesso e monitoramento a pontos de troca de tráfego em grandes provedores ou a logs de rastreadores abrigados em comunidades não são viáveis. A obtenção de logs de rastreadores serve apenas para análise de uma situação específica, e não é genérica nem flexível em função do leque de possibilidade de análise ao observar dinamicamente uma rede real. A melhor abordagem para o que se propõe é a ativa, monitorando comunidades, rastreadores, e participando nos enxames com agentes instrumentados. Ela pode obter informações detalhadas, porém pode representar um custo de processamento e largura de banda inviáveis. O Universo Torrent é formado por um vasto conjunto de redes BitTorrent, com comunidades, enxames, rastreadores e pares. Nenhuma das abordagens anteriores observa esse Universo de forma integrada, como aqui se propõe, ou flexível, na escolha de estratégias considerando a relação custo e benefício. Dada a relevância das informações que se pode obter, e a necessidade de manter de forma contínua um processo de acompanhamento, justifica-se a investigação de estratégias de monitoramento que permitam, de forma flexível e escalável, observar o universo de redes BitTorrent, e de uma arquitetura e protótipo que concretizem as mesmas. 6.4. Objetivo O GT-UniT objetiva investigar melhores estratégias para o monitoramento do Universo de Redes BitTorrent. Com base nessas informações, as estratégias permitirão, por exemplo, auxiliar na identificação e dimensionamento do volume de atividades de compartilhamento, tanto lícito como ilícito, bem como a ocorrência de ataques a usuários de redes BitTorrent. A concepção de uma arquitetura que consolide as estratégias permitirá extrair informações das redes BitTorrent em atividade, que por sua vez habili- 8

tarão o melhor entendimento sobre como funcionam e diagnosticar, ou dimensionar, padrões de uso, incluindo a disseminação de conteúdo poluído ou protegido. As estratégias e a arquitetura correspondente deverão permitir que o domínio a ser monitorado seja especificado de forma flexível, identificando qual a visão (objeto de estudo) será monitorada. Para isso, combina-se através de regras de monitoração (o que se deseja monitorar), como por exemplo quais comunidades de compartilhamento, que tipo de conteúdo digital (segundo uma categoria, tamanho, ou nome) e a localização dos pares participantes (em termos de abrangência geográfica ou de faixas de endereçamento IP). Além disso, considerando as escolhas anteriores, deverá permitir a seleção de quais informações devem ser coletadas. Uma lista não exaustiva de possibilidades inclui determinar quantidades como: número de usuários total, número de usuários online, número de torrents publicados, número de rastreadores, número de enxames (ativos), número de pares envolvidos, número de semeadores, número de pares usando criptografia, popularidade de cada agente de usuário, etc. Por fim, considerando que existem diferentes custos associados à obtenção de cada informação, a arquitetura deve permitir que a escolha do conjunto de informações seja feita de forma flexível, ajustando a acurácia das informações em função dos recursos disponíveis, com impacto na abrangência e frequência das amostragens realizadas. 7. Ambiente para testes do protótipo Pelo menos dois ambientes distintos serão usados para avaliação do protótipo: uma pequena rede local, formada pelos equipamentos cedidos pela RNP, e o PlanetLab. No processo de desenvolvimento, o protótipo será testado localmente, valendo-se das cinco máquinas disponibilizadas ao GT-UniT. Nesta configuração, cada uma das quatro máquinas receberá um pequeno conjunto de agentes de usuário BitTorrent (até 20 por máquina). A quinta máquina será usada para executar o monitor. Naturalmente, o processo de teste seria qualificado se a RNP disponibilizasse ao GT uma rede (remota) controlada, com maior número de máquinas (pelo menos 30). O primeiro conjunto de testes indicará se o sistema está funcionando corretamente, conforme a especificação e o comportamento esperado. A campanha de testes termina com a obtenção de resultados corretos perante situações típicas, assim como as de contorno. Após isso, será feita uma avaliação da eficiência do sistema, com o mesmo contexto local. O segundo ambiente de testes e avaliação será feita ao vivo, em redes BitTorrent reais, com execução de monitores em nodos do PlanetLab. Para tal, será necessário contar com slices do PlanetLab disponíveis à RNP ou à UFRGS. 8. Referências [Andrade et al., 2005] Andrade, N., Mowbray, M., Lima, A., Wagner, G., and Ripeanu, M. (2005). Influences on cooperation in BitTorrent communities. Proceedings of the 2005 ACM SIGCOMM workshop on Economics of peer-to-peer systems, pages 111 115. 9

[Barcellos et al., 2008a] Barcellos, M. P., Bauermann, D., Sant Anna, H., Lehmann, M., and Mansilha, R. (2008a). Protecting BitTorrent: Design and evaluation of effective countermeasures against DoS attacks. IEEE Symposium on Reliable Distributed Systems, 2008. SRDS 08, pages 73 82. [Barcellos and Gaspary, 2006] Barcellos, M. P. and Gaspary, L. P. (2006). Fundamentos, Tecnologias e Tendências rumo a Redes P2P Seguras, volume 1, chapter 4, pages 1 57. [Barcellos et al., 2008b] Barcellos, M. P., Mansilha, R., and Brasileiro, F. (2008b). TorrentLab: investigating BitTorrent through simulation and live experiments. IEEE Symposium on Computers and Communications, 2008. ISCC 2008, pages 507 512. [Bauermann et al., 2008] Bauermann, D., Lehmann, M., Mansilha, R. B., and Barcellos, M. P. (2008). Protegendo BitTorrent: projeto e avaliação de contra-medidas eficazes para ataques DoS. VIII Simpósio Brasileiro em Segurança da Informação e de Sistemas Computacionais (SBSeg 2008), pages 215 228. [Bellissimo et al., 2004] Bellissimo, A., Levine, B., and Shenoy, P. (2004). Exploring the use of BitTorrent as the basis for a large trace repository. University of Massachusetts. [Chow et al., 2007] Chow, K., Cheng, K., Man, L., Lai, P., Hui, L., Chong, C., Pun, K., Tsang, W., Chan, H., and Yiu, S. (2007). BTM-an automated rule-based BT monitoring system for piracy detection. Internet Monitoring and Protection, 2007. ICIMP 2007. Second International Conference on, pages 2 2. [Cohen, 2003] Cohen, B. (2003). Incentives build robustness in BitTorrent. Workshop on Economics of Peer-to-Peer Systems, 6. [Dale and Liu, 2007] Dale, C. and Liu, J. (2007). A measurement study of piece population in BitTorrent. IEEE Global Telecommunications Conference, 2007. GLOBECOM 07, pages 405 410. [Dhungel et al., 2008] Dhungel, P., Wu, D., Schonhorst, B., and Ross, K. W. (2008). A measurement study of attacks on BitTorrent leechers. Proc. 7th Int. Workshop on Peerto-Peer Systems (IPTPS). [Erman et al., 2004] Erman, D., Ilie, D., and Popescu, A. (2004). BitTorrent session characteristics and models. Heterogeneous Networks. [Fan et al., 2009] Fan, B., Lui, J. C. S., and Chiu, D.-M. (2009). The design trade-offs of BitTorrent-like file sharing protocols, IEEE/ACM Transactions on Networking, 17(2):365 376. [Frost, 2009] Frost, E. (2009). BitTorrent tracker log analyzer website, http://ei.kefro.st/projects/btrackalyzer/. [Guo et al., 2005] Guo, L., Chen, S., Xiao, Z., Tan, E., Ding, X., and Zhang, X. (2005). Measurements, analysis, and modeling of BitTorrent-like systems. Proc. of IMC. [Guo et al., 2007] Guo, L., Chen, S., Xiao, Z., Tan, E., Ding, X., and Zhang, X. (2007). A performance study of BitTorrent-like peer-to-peer systems. IEEE Journal on Selected Areas in Communications, 25(1):155 169. 10

[Horng et al.,] Horng, M., Chen, C., Chuang, C., and Lin, C. Identification and analysis of P2P traffic-an example of BitTorrent. ICICIC, 6:266 269. [Iosup et al., 2006] Iosup, A., Garbacki, P., Pouwelse, J., and Epema, D. (2006). Correlating topology and path characteristics of overlay networks and the internet. Cluster Computing and the Grid Workshops, 2006. Sixth IEEE International Symposium on, 2:10 10. [Isdal et al., 2007] Isdal, T., Piatek, M., Krishnamurthy, A., and Anderson, T. (2007). Leveraging BitTorrent for end host measurements. 8th Passive and Active Measurement Conference (PAM 07). [Izal et al., 2004] Izal, M., Keller, U. G., Biersack, E., Felber, P. A., Hamra, A., and Garces-Erice, L. (2004). Dissecting BitTorrent: Five months in a torrent s lifetime. Passive And Active Network Measurement: 5th International Workshop, PAM 2004, Antibes Juan-les-Pins, France, April 19-20, 2004; Proceedings, page 1. [Konrath et al., 2007] Konrath, M., Barcellos, M. P., and Mansilha, R. (2007a). Attacking a swarm with a band of liars: evaluating the impact of attacks on BitTorrent. Peer-to-Peer Computing, 2007. P2P 2007. Seventh IEEE International Conference on, pages 37 44. [Legout et al., 2007] Legout, A., Liogkas, N., Kohler, E., and Zhang, L. (2007). Clustering and sharing incentives in BitTorrent systems. SIGMETRICS 07: Proceedings of the 2007 ACM SIGMETRICS International Conference on Measurement and Modeling of Computer Systems. [Legout et al., 2006] Legout, A., Urvoy-Keller, G., and Michiardi, P. (2006). Rarest first and choke algorithms are enough. Technical report. [Mansilha et al., 2007] Mansilha, R. B., Konrath, M. A., and Barcellos, M. P. (2007). Corrupção, mentiras e isolamento: avaliação de impacto de ataques a BitTorrent. VII Simpósio Brasileiro em Segurança da Informação e de Sistemas Computacionais (SBSEG 2007). [Pouwelse et al., 2005] Pouwelse, J., Garbacki, P., Epema, D., and Sips, H. (2005). The BitTorrent P2P file-sharing system: Measurements and analysis. Lecture Notes in Computer Science, 3640:205. [Saroiu et al., 2002b] Saroiu, S., Gummadi, P., and Gribble, S. (2002b). A measurement study of peer-to-peer file sharing systems. Proceedings of Multimedia Computing and Networking, 2002:152. [Schmitt et al., 2008] Schmitt, C., Barcellos, M. P., and Mansilha, R. B. (2008). Um estudo experimental sobre ataques ao sistema de compartilhamento P2P BitTorrent. XXVI Simpósio Brasileiro de Redes de Computadores e Sistemas Distribuídos (SBRC 2008), pages 581 594. [Schulze and Mochalski, 2009] Schulze, H. and Mochalski, K. (2009). Internet study 2008/2009, https://portal.ipoque.com/. Ipoque, pages 1 14. [Silverston et al., 2008] Silverston, T., Fourmaux, O., and Crowcroft, J. (2008). Towards an incentive mechanism for peer-to-peer multimedia live streaming systems. Peer-to-Peer Computing, 2008. P2P 08. Eighth International Conference on, pages 125 128. 11

[Stutzbach and Rejaie, 2006] Stutzbach, D. and Rejaie, R. (2006). Understanding churn in peerto-peer networks. Proceedings of the 6th ACM SIGCOMM conference on Internet measurement, pages 189 202. 12