Uma Caracterização de Comportamento de Usuários de Internet Banda Larga



Documentos relacionados
BUBA: Uma Ferramenta para Análise do Comportamento de

Política de Privacidade do Serviço OurSound para Estabelecimentos

2 Fundamentação Conceitual

Camada de Transporte, protocolos TCP e UDP

Trabalho Computacional

Trabalho de Mestrado

CAMADA DE TRANSPORTE

Planejamento Estratégico de TI. Prof.: Fernando Ascani

2 Gerenciamento de Log 2.1 Definições básicas

Redes de Computadores e a Internet

Diagrama lógico da rede da empresa Fácil Credito

Disciplina de Redes de Computadores Estudo Dirigido para a Prova II Professor Dr Windson Viana de Carvalho

TECNOLOGIA WEB Aula 1 Evolução da Internet Profa. Rosemary Melo

Introdução. Uso do disco Vantagens Desvantagens Baixo custo, facilidade de manutenção do software e do hardware, simetria e flexibilidade

Aula 03-04: Modelos de Sistemas Distribuídos

Curso: Redes II (Heterogênea e Convergente)

Redes de Computadores II

Caracterização hierárquica do comportamento dos usuários de sistemas par-a-par na Internet de banda larga

Voxtron Communication Center QuickStart

Disciplina: Redes de Comunicação. Curso Profissional Técnico de Gestão e Programação de Sistemas Informáticos. Setembro 2013

Conceitos Básicos de Rede. Um manual para empresas com até 75 computadores

No projeto das primeiras redes de computadores, o hardware foi a principal preocupação e o software ficou em segundo plano.

Redes de computadores. Redes para Internet

Capítulo 1: Redes de computadores e a Internet. Capítulo1. Redes de. computadores. computador. e a Internet. es e a Internet

Metadados. 1. Introdução. 2. O que são Metadados? 3. O Valor dos Metadados

3. Faça uma breve descrição sobre a topologia da rede e o Active Directory-AD DISCIPLINA DE ARQUITETURA FECHADA WINDOWS SERVER

O Sistema foi inteiramente desenvolvido em PHP+Javascript com banco de dados em MySQL.

Gestão da Qualidade em Projetos

Transformação de um Modelo de Empresa em Requisitos de Software

Solicitação de Propostas. Apoio à Conexão de Unidades de Ensino e Pesquisa a Redes Estaduais

PROTOCOLOS DE COMUNICAÇÃO

Resolução de Problemas de Rede. Disciplina: Suporte Remoto Prof. Etelvira Leite

Conceito de Rede e seus Elementos. Prof. Marciano dos Santos Dionizio

Domínios. Domínios Mundiais Usado para atividades comerciais. Usado em instituições sem fins lucrativos. Usado para nomes pessoais.

Copyright Proibida Reprodução. Prof. Éder Clementino dos Santos

Redes de Computadores Camada de Aplicação. Prof. MSc. Hugo Souza

ESTENDENDO A UML PARA REPRESENTAR RESTRIÇÕES DE INTEGRIDADE

ADMINISTRAÇÃO DE BANCOS DE DADOS MÓDULO 13

Gerenciamento de Projetos Modulo II Clico de Vida e Organização

Rede de Computadores (REC)

Usando o Conference Manager do Microsoft Outlook

CAPÍTULO 25 COERÊNCIA REGULATÓRIA

Olá, Somos Ideatera - Studio Tecnológico

Programação para Web

Há 17 anos no mercado, a PREMIUN Tecnologia desenvolve soluções para o gerenciamento e controle de gastos em telefonia.

Network Top: Uma Ferramenta Automatizada para Análise e Gerenciamento de Redes

Comunicação Fim-a-Fim a Alta Vede em Redes Gigabit

Influência do Encaminhamento de Mensagens na Topologia de Redes Sociais

Especificação Técnica Sistema ABS TEM+

COMISSÃO PRÓPRIA DE AVALIAÇÃO DA FACULDADE ARAGUAIA RELATÓRIO FINAL DE AUTO-AVALIAÇÃO DO CURSO DE CIÊNCIAS CONTÁBEISDA CPA DA FACULDADE ARAGUAIA

Guia de utilização da notação BPMN

ipea políticas sociais acompanhamento e análise 7 ago GASTOS SOCIAIS: FOCALIZAR VERSUS UNIVERSALIZAR José Márcio Camargo*

Universidade Federal de Pernambuco

Revista Contabilidade & Amazônia. Fluxo de Caixa como Ferramenta de Gestão Financeira para Microempresas

REDES DE COMPUTADORES E TELECOMUNICAÇÕES MÓDULO 12

Forefront Server Security Management Console: Gerenciamento Simplificado da Segurança para Mensagens e Colaboração White Paper

MANUAL CHAT DE ATENDIMENTO VIASOFT

Sistema de Gerenciamento de Projetos V 1.01 MANUAL DO COORDENADOR

Acordo de Nível de Serviço

A Internet, ou apenas Net, é uma rede mundial de computadores ligados, entre si, através de linhas telefónicas comuns, linhas de comunicação

Microsoft Office Outlook Web Access ABYARAIMOVEIS.COM.BR

Avaliação de Desempenho de Sistemas

Clientes Peer to Peer em Redes 3G. MAC 5743 Computação Móvel Prof: Alfredo Goldman Aluno: Márcio Guedes Hasegawa

REDES COMPONENTES DE UMA REDE

Processos de gerenciamento de projetos em um projeto

4. Qual seria o impacto da escolha de uma chave que possua letras repetidas em uma cifra de transposição?

Fundamentos Decifrados de Contabilidade

Manual de Publicação Wordpress

O QUE VOCÊ PRECISA SABER SOBRE DOMÍNIOS

Sistemas Operacionais. Curso Técnico Integrado Profa: Michelle Nery

SUMÁRIO. White Paper - NETGLOBE 2

Autoria:Aristófanes Corrêa Silva Adaptação: Alexandre César M de Oliveira

O Que é Internet? Internet - é a maior interconexão de redes de computadores que permite a estes conexão e comunicação direta;

SISTEMAS DISTRIBUIDOS

DIFICULDADES NA COMPILAÇÃO DE UM CORPUS DE LÍNGUA ESPANHOLA

Gerenciamento de Mensagens e Tarefas / NT Editora. -- Brasília: p. : il. ; 21,0 X 29,7 cm.

Regulamento do Concurso de Ideias Desafios da Inovação FIT Networks

Qualidade e Comportamento do Produto em Pós-venda

COMISSÃO DE COORDENAÇÃO DE CURSO INTRA-UNIDADE

Escopo do Copilot Optimize - Elaboração de Relatórios

Capítulo 7 CAMADA DE TRANSPORTE

MÓDULO I - INTERNET APRESENTAÇÃO DO CURSO. Prof. BRUNO GUILHEN. Prof. BRUNO GUILHEN. O processo de Navegação na Internet. Aula 01

CURSO: Orientações. MÓDULOS: Orientações/Calendário/Links. Curso 3/ Contato com o suporte: Nome.: Empresa.: Data.: / / .

ITIL v3 - Operação de Serviço - Parte 1

REGULAMENTO PROGRAMA DE INCENTIVO Um Sonho de Natal

MINISTÉRIO DA SAÚDE. Secretária de Gestão Estratégica e Participativa da Saúde SGEP. Coordenação de Desenvolvimento dos Sistemas de Saúde - CDESS

18º Congresso de Iniciação Científica IMPLEMENTAÇÃO DE UM MODELO DE TESTE DE APLICAÇÕES WEB

Computador E/S, Memória, Barramento do sistema e CPU Onde a CPU Registradores, ULA, Interconexão interna da CPU e Unidade de controle.

DELEGAÇÃO REGIONAL DO ALENTEJO CENTRO DE FORMAÇÃO PROFISSIONAL DE ÉVORA REFLEXÃO 3

Aula 4 Estatística Conceitos básicos

BC-0506: Comunicação e Redes Internet e Web como redes complexas

INSTITUTO PRESBITERIANO MACKENZIE COLÉGIO PRESBITERIANO MACKENZIE SP Informática Educacional

Título da Proposta: Modificação Alocação e designação inicial de endereços IPv4

PLANEJAMENTO ESTRATÉGICO

Transcrição:

Uma Caracterização de Comportamento de Usuários de Internet Banda Larga Pedro H. Calais Guerra, Leonardo C. Dutra Rocha Departamento de Ciência da Computação Universidade Federal de Minas Gerais Av. Antônio Carlos, 6627 - Pampulha - CEP 327- Belo Horizonte - Minas Gerais - Brasil {pcalais,lcrocha}@dcc.ufmg.br Abstract. This paper presents a characterization of broadband user behavior from an Internet Service Provider standpoint. Users are broken into two major categories: residential and Small-Office/Home-Office (SOHO). For each user category, the characterization is performed along four criteria: (i) session arrival process, (ii) session duration, (iii) number of bytes transferred within a session and (iv) user request patterns. We identified probability distributions that represent very well the workload generated by the users of each category and managed to point significant differences between them. Moreover, we identified groups of user sessions with very distinct characteristics between them. Understanding user behavior according to these aspects is an important step to the development of more efficient applications for broadband users. Resumo. Neste artigo apresentamos uma caracterização do comportamento de usuários de Internet Banda Larga de um provedor de acesso (ISP). Os clientes do ISP foram divididos em duas categorias (residencial e comercial), e para cada categoria investigamos: (i) processo de chegada de sessões, (ii) duração das sessões, (iii) número de bytes transferidos em cada sessão e (iv) padrões de requisição dos usuários a serviços Web. Conseguimos identificar distribuições de probabilidade que representam com fidelidade a carga gerada pelos usuários de cada categoria, além de determinar diferenças significativas entre elas. Além disso, identificamos grupos representativos de sessões de usuários que possuem comportamento bastante distinto entre si. Entender o comportamento dos usuários segundo esses aspectos é um passo importante para o desenvolvimento de aplicações mais eficientes e efetivas direcionadas para os clientes de Internet Banda Larga.. Introdução A crescente difusão de conexões de banda larga, particularmente de conexões utilizando tecnologias de TV a cabo e ADSL, tem criado novas possibilidades de uso dos recursos da Internet por parte dos usuários de pequenas instituições e usuários domésticos. A disponibilidade contínua de conexão aliada ao aumento da qualidade de serviço de acesso conduz o usuário ao uso mais intenso dos diferentes serviços disponíveis na Internet atual, em particular, aplicações de comércio eletrônico, Internet banking e sistemas Peer-to-Peer para compartilhamento de recursos, principalmente arquivos de vídeo e áudio. XXIV CTIC 235

Em outras palavras, a maior disponibilidade provida pela conexão de banda larga leva a um comportamento típico de usuário bastante complexo e potencialmente diferente daquele de um usuário de acesso discado. Um estudo recente da Pew Internet & American Life [Pew, 24] mostrou que, se comparado com usuários de acesso discado, usuários de banda larga se envolvem com mais atividades diferentes, têm uma tendência maior de criar e gerenciar conteúdo on-line e buscam informações com muito mais frequência. Apesar desse relatório da Pew, não existem na literatura muitos estudos sobre o comportamento de usuários de Internet Banda Larga. Este artigo pretende contribuir para o conhecimento nesse campo apresentando uma caracterização do comportamento desses usuários, baseada em logs reais de um grande provedor de acesso brasileiro. A partir da divisão dos usuários em duas categorias (residencial e comercial), a caracterização avalia a forma como os usuários se conectam ao ISP, quanto tempo eles permanecem on-line, onúmero de bytes que eles transferem em suas sessões e o que eles fazem enquanto estão conectados, em termos das requisições a serviços Web, como, email, Peerto-Peer etc. Essas informações podem ser muito úteis no planejamento da capacidade da infra-estrutura dos provedores e provêem subsídios para avaliação de práticas como personalização de serviços e adoção de tarifações diferenciadas, com boa relação custobenefício tanto para o usuário quanto para o provedor. O trabalho de iniciação científica aqui contido foi no sentido de, munido das métricas de caracterização, projetar, implementar e validar todo o ferramental de caracterização, assim como aplicar esse ferramental a dados reais e participar da análise de resultados. Este trabalho já resultou na ferramenta BUBA - Broadband User Behavior Analysis [Calais et al., 25] (que pode ser acessada via Web através do site http://buba.speed.dcc.ufmg.br, login e senha ctic25) e em um artigo também relacionado a ele [Marques et al., 24], ambos de autoria do bolsista. O artigo está organizado da seguinte forma: a seção 2 discute alguns trabalhos relacionados. A seção 3 descreve o processo de coleta de dados e a metodologia de caracterização que foi aplicada. A seção 4 apresenta os resultados mais relevantes obtidos através da caracterização. Por fim, as conclusões são apresentadas na seção 5. 2. Trabalhos Relacionados Diversas caracterizações de carga e do comportamento de usuários estão disponíveis na literatura. Cargas Web tradicionais, referentes a requisições a documentos e arquivos de imagem são analisadas em vários estudos anteriores, concentrados tanto na carga do lado do servidor [Arlitt and Jin, 2] quanto do cliente [Barford et al., 999]. Estudos mais recentes caracterizam a carga de trabalho de outros tipos de aplicações, como vídeo sob-demanda [Costa et al., 24] e serviços Peer-to-Peer (P2P) [Gummadi et al., 23, Saroiu et al., 22, Leibowitz et al., 23], que têm se tornado cada vez mais populares devido à crescente disponibilidade de conexões de banda larga [Lakshminarayanan and Padmanabhan, 23]. Algumas caracterizações de cargas de trabalho P2P analisam vários aspectos do tráfego gerado por aplicações desse tipo, como a popularidade e o tamanho dos objetos, a utilização de largura de banda e a duração das sessões [Gummadi et al., 23, Saroiu et al., 22, Hamada et al., 24]. Enquanto essas análises focam em um tipo específico de aplicação, nosso trabalho se concentra nas requisições a um grande número de serviços diferentes, como XXIV CTIC 236

, FTP, P2P etc. Nesse sentido, a caracterização de um proxy de um ISP de banda larga [Arlitt et al., 999] é possivelmente o trabalho mais próximo ao nosso. No entanto, além de caracterizar o tráfego gerado por usuários de Internet Banda Larga, procuramos também determinar padrões nas requisições dos usuários e confrontar os resultados obtidos para os usuários residenciais e comerciais. 3. Metodologia de Caracterização Nesta seção apresentamos nossa metodologia de caracterização e como ela é aplicada ao ambiente do ISP. O objetivo da caracterização é prover um entendimento do comportamento dos usuários de banda larga em termos do consumo de recursos e serviços requisitados, sendo dessa forma baseada em quatro critérios: o processo de chegada de sessões, a duração das sessões, o volume de bytes transferidos e o padrão de requisições dos usuários. Os dois primeiros fornecem informação temporal sobre a carga gerada pelos usuários. O volume de bytes transferidos provê informações sobre o consumo de banda, que é um recurso crítico a ser administrado por qualquer ISP. Por fim, os padrões de requisições entre os usuários do ISP qualificam as sessões em termos de requisições aos serviços Web. Para realizar a caracterização, utilizamos três fontes de dados: um log de autenticação de usuários, uma base de dados dos usuários e um log de tráfego. O log de autenticação é compatível com o protocolo RADIUS [Rubens and Simpson, 2] e registra o momento em que cada sessão iniciou e terminou, a duração, o número de bytes enviados e recebidos e o IP dinamicamente atribuído ao usuário em cada sessão. A base de dados de usuários é uma tabela que informa a categoria de cada cliente do ISP (residencial ou comercial) e que por questões de privacidade, foi anonimizada. O terceiro log é coletado através do Netflow [Netflow, 25]. O Netflow divide o tráfego em fluxos e cada fluxo é caracterizado por um timestamp que indica quando o mesmo foi registrado no log, o IP de origem e de destino dos dados, a porta de destino utilizada, o protocolo (TCP ou UDP) eovolume de bytes transferidos. A partir dos logs acima discutidos, foi realizado um pré-processamento dos mesmos para que seja possível extrair as informações de forma mais simplificada e eficiente. Combinando as três fontes de dados (RADIUS, Netflow e a classificação dos clientes) extraimos todas as informações necessárias para caracterizar cada sessão dos usuários. Para fins de caracterização, apenas sessões que iniciaram e terminaram durante o período de coleta de log foram consideradas. O padrão de requisições dos usuários é obtido dos logs de tráfego que registram as requisições aos serviços em cada uma das sessões dos usuários. A utilização de um serviço consiste em requisições a uma aplicação ou conjunto de aplicações e é identificada através de portas onde os servidores respondem à essas requisições. Usamos uma versão estendida da taxonomia utilizada pelo IANA (Internet Assigned Numbers Authority) para relacionar essas portas com seus respectivos serviços. A extensão foi necessária porque a utilização de algumas portas são bem conhecidas mas não registradas, como por exemplo a porta 4662, utilizada pela aplicação de Peer-to-Peer edonkey [Tutschku, 24]. Para identificar tais padrões, utilizamos o k-means [Hartigan, 975], um algoritmo de agrupamento. Esse tipo de algoritmo é uma técnica bem conhecida para segmentar um grupo heterogêneo de entidades (no caso, sessões de usuários de Internet) em XXIV CTIC 237

grupos (ou clusters) que possuem comportamento semelhante. No caso, queremos determinar grupos de usuários que acessem os mesmos serviços Web com uma frequência parecida. O número de grupos ideal é determinado através do β-cv, como descrito em [Mensacé and Almeida, 2]. Cada grupo é representado por um CBMG (Customer Behavior Model Graph) [Mensacé and Almeida, 2]. O CBMG consiste em um grafo direcionado onde os vértices são os diversos serviços oferecidos na rede (,, FTP etc) e as arestas representam as probabilidades de um usuário deixar de utilizar um serviço para utilizar outro. O CBMG é uma representação semanticamente rica e ao mesmo tempo sucinta, e perfis representativos de sessões são encontrados através do agrupamento das sessões em CBMGs. 4. Análise de Resultados Esta seção apresenta os resultados mais relevantes obtidos em nossa caracterização. A seção 4.. mostra uma visão geral dos dados. O processo de chegada de sessões, a duração das sessões e o volume de bytes transferidos são caracterizados na sessão 4.2.. A seção 4.3. analisa os padrões de requisições dos usuários. 4.. Visão Geral da Carga Tabela. Sumário dos (CV = co-variância) classe de usuários residencial comercial # de sessões completadas 6274 3788 total de bytes recebidos (GB) 5387 (75%) 79 (25%) total de bytes enviados (GB) 263 (82%) 452 (8%) média de sessões completadas por usuário 29,6 22,7 duração média das sessões (horas) e CV 6,43 (2,32) 8,59 (2,26) bytes recebidos por sessão (MB) e CV 33,9 (7,83) 48,42 (8,8) bytes enviados por sessão (MB) e CV 2,98 (4,57) 2,23 (3,46) A Tabela mostra uma visão geral da carga de trabalho do usuários residenciais e comerciais. Os logs que utilizamos na caracterização abrangem um período de 28 dias, durante o qual cerca de 2. sessões se completaram. Aproximadamente 8% das sessões são de usuários residenciais, e essa proporção se mantém no que se refere aos bytes enviados e recebidos. Pela tabela, notamos também que a freqüência com que os usuários comerciais estabelecem sessões é um pouco maior que a dos usuários comerciais, apesar de que esses últimos tendem a possuir sessões um pouco mais longas. A Figura apresenta gráficos que mostram o número de sessões simultâneas ativas, em uma semana típica. É interessante notar a grande queda no número de usuários comerciais utilizando a rede durante os fins-de-semana. Esta queda também é notada entre os usuários residenciais, apesar de ser bem mais branda. A partir desses resultados, os provedores podem se planejar para realizar reparos e upgrades no sistema em horários em que o menor número de usuários estejam conectados. Além disso, o número de conexões simultâneas criadas por usuários de um ISP de banda larga deve ser bem administrado, devido à limitação do número de IPs válidos distribuídos para cada ISP. 4.2. Características das Sessões Nesta seção analisamos os três primeiros critérios utilizados em nossa caracterização: (i) processo de chegada de sessões, (ii) duração das sessões e (iii) volume de tráfego. XXIV CTIC 238

45 45 4 4 Nœmero de Sessıes Ativas 35 3 25 2 5 Nœmero de Sessıes Ativas 35 3 25 2 5 5 5 domingo segunda terça quarta quinta sexta Dia da Semana sábado domingo segunda terça quarta quinta sexta Dia da Semana sábado Figura. Número de Sessões Ativas em uma Semana Típica 4.2.. Processo de Chegada de Sessões Para caracterizar o processo de chegada de sessões, escolhemos períodos de estabilidade quanto à taxa de chegada de sessões a fim de evitar efeitos indesejáveis de agregação de dados. A escolha dos períodos analisados foi feita com a preocupação de abranger diferentes momentos do dia e diferentes dias da semana, incluindo fins-de-semana. O método dos mínimos quadrados foi utilizado para determinar qual distribuição melhor representava o conjunto de dados, e uma inspeção visual também foi feita. Encontramos que o tempo entre chegada de sessões possui distribuição exponencial tanto para sessões de usuários residenciais quanto comerciais, como ilustrado nas Figuras 2(a) e 2(b) respectivamente. A Tabela 2 mostra um resumo dos resultados obtidos na modelagem, fornecendo o intervalo de variação da média e da co-variância (CV) dos tempos entre chegada de sessões, assim como o valor do parâmetro λ obtido, que representa a taxa de chegada de sessões. Os resultados são consistentes com os apresentados em [Floyd and Paxson, 2]..9 Exponencial.9 Exponencial.8.8.7.7.6.5.4.6.5.4.3.3.2.2.. 2 3 4 5 6 7 8 Tempo entre Chegada de Sessões (segundos) 5 5 2 25 3 Tempo entre Chegada de Sessões (segundos) Figura 2. Distribuição do Tempo entre Chegadas de Sessões (segundos). O parâmetro λ relativo aos usuários residenciais mostra que a taxa de chegada de sessões desses usuários se mantém relativamente alta durante todo o dia, variando entre 4 a segundos. Já os usuários comerciais são responsáveis por uma grande taxa de chegada de sessões no início do dia, porém em outros momentos (como madrugadas e fins-de-semana) essa taxa cai bastante. XXIV CTIC 239

Tabela 2. Sumário da Distribuição do Tempo Entre Chegadas de Sessões Tempos entre Chegadas de Sessões dist. carga de trabalho média (seg) CV exponencial residencial 4,8 -,2,2 -,5, -,2 comercial 4,63-42,9,98 -,99,2 -,22 4.2.2. Duração das Sessões distribuição exponencial: p X (x) =λe λx Para caracterizar a duração das sessões, analisamos separadamente a duração de todas as sessões que se iniciaram em um dado dia, para evitarmos a agregação dos resultados. Novamente o processo foi repetido para um grande número de dias..9.9 Pareto.8.8.7.7.6.5.4.6.5.4.3.3.2.2.. 2 4 6 8 2 4 6 8 2 Duração das Sessões (horas) 5 5 2 25 3 35 Duração das Sessões (horas) Figura 3. Distribuição da Duração de Sessões (horas). Tabela 3. Sumário das Distribuições da Duração de Sessões carga de trabalho média (horas) CV dist. Log-Normal dist. Pareto σ µ k α residencial 4,7-3,9,75-2,47,8 -,52,48 -,86 - - comercial 6,95-9,2,53 -,62,92 -,45,4-2,3,82-7,8,28 -,95 distribuição Log-Normal: p X (x) = xσ e (ln(x) µ) 2 2σ 2 2π x k. Distribuição Pareto: p X (x) = αkα x α+, onde As sessões de usuários residenciais podem ser aproximadas por uma distribuição, conforme pode ser observado na Figura 3(a), o que é consistente com os resultados apresentados em [Floyd and Paxson, 2]. No entanto, as sessões de usuários comerciais são melhor modeladas por um combinação entre as distribuições e Pareto, para o corpo e cauda respectivamente, como ilustra a Figura 3(b). A Tabela 3 mostra um sumário dos resultados. Os gráficos da Figura 4 indicam uma diferença clara entre os usuários residenciais e comerciais. Estes últimos tendem a estabelecer sessões que duram em torno de a 2 horas, correspondentes ao tempo de jornada de trabalho comumente adotado nas organizações. Essa diferença justifica a necessidade de uma modelagem mais complexa composta por duas distribuições diferentes na duração de sessões comerciais. XXIV CTIC 24

45 Duração x Número de Sessões 8 Duração x Número de Sessões Número de Sessões 4 35 3 25 2 5 5 Número de Sessões 7 6 5 4 3 2 5 5 2 25 Duração (horas) 5 5 2 25 Duração (horas) Figura 4. Histograma da Duração de Sessões 4.2.3. Tráfego Nesta seção caracterizamos o número total dos bytes enviados e recebidos em cada sessão. Assim como nas seções anteriores, a análise é realizada para diferentes dias. Encontramos que tanto para as sessões residenciais quanto para as comerciais, os bytes recebidos (Figura 5) e os bytes enviados (Figura 6) podem ser modelados de forma satisfatória por uma distribuição, confirmando os resultados apresentados em [Arlitt and Jin, 2, Barford et al., 999, Floyd and Paxson, 2]..9.9.8.8.7.7.6.5.4.6.5.4.3.3.2.2.. 2 4 6 8 2 4 6 8 2 Bytes Recebidos (MB) 2 4 6 8 2 4 6 8 2 Bytes Recebidos (MB) Figura 5. Distribuição do Número de Bytes Recebidos por Sessão (MB)..9.9 Measured.8.8.7.7.6.5.4.6.5.4.3.3.2.2.. 2 4 6 8 2 4 6 8 2 Bytes Enviados (MB) 2 4 6 8 2 4 6 8 2 Bytes Enviados (MB) Figura 6. Distribuição do Número de Bytes Enviados por Sessão (MB). XXIV CTIC 24

Um sumário dos resultados pode ser observado pela Tabela 4. Comparando as duas categorias de usuários, notamos que os usuários comerciais em média enviam e recebem mais bytes. Possivelmente, isso se deve em parte ao fato de que empresas e organizações em geral possuirem várias máquinas em rede compartilhando a conexão à Internet, o que leva a um maior consumo de banda. Tabela 4. Sumário das Distribuições do Tráfego de Bytes em cada Sessão bytes transferidos dist. Log-Normal carga de trabalho métrica média (MB) CV σ µ residencial recebidos 28-44 3,95-4,63,62 -,83,76-2,46 comercial recebidos 47-8 3,3-3,4,47 -,7 2,39-3,27 residencial enviados -6 6,82-8,27,84-2,9,3 -,9 comercial enviados 9-23 2,98-6,82,5-2,9,4 -,3 4.3. Padrões de Requisições dos Usuários Nesta seção investigamos os padrões de requisições dos usuários do ISP de banda larga, focando nas classes de serviços mais comumente requisitadas pelos mesmos. Primeiramente analisamos a popularidade dos serviços utilizados por cada uma das duas classes de usuários, em três aspectos: a presença desses serviços nas sessões, ou seja, a porcentagem das sessões que possuem pelo menos uma requisição a cada um dos serviços (Figuras 7(a) e 8(a)); o número de requisições a cada serviço (Figuras 7(b) e 8(b)) e os bytes transferidos através de cada um (Figuras 7(c) e 8(c)). Apesar do estar presente em mais de 95% das sessões em ambas as cargas de trabalho (residencial e comercial), serviços de email ( e ) e aplicativos de troca de mensagens instantâneas (MSN e ICQ) também são populares entre os usuários. Já os serviços de P2P (Kazaa, e-donkey, BitTorrent, SoulSeek e WinMX)são os que mais transferem bytes, apesar de não estarem presentes em grande parte das sessões dos usuários. Um fato surpreendente nesses resultados é a grande presença de serviços P2P também entre os usuários comerciais. Presença de serviços Número de Requisições aos s Bytes Transferidos por Porcentagem 9 8 7 6 5 4 3 2 Porcentagem 4 35 3 25 2 5 5 Tráfego (GB) 5 45 4 35 3 25 2 5 5 S AIM/ICQ MSN MESSENGER PEER ENABLER IRC DNS PROXY (a) presença de serviços MICROSOFT DS MSN MESSENGER HALFLIFE DNS E DONKEY CSTRIKE EPMAP PEER ENABLER S AIM/ICQ IRC (b) requisições aos serviços E DONKEY BITTORRENT SOULSEEK COUNTERSTRIKE WINMX MICROSOFT DS (c) bytes transferidos por serviço Figura 7. popularidade de serviços (usuários residenciais) Dada a natureza dos diferentes serviços requisitados pelos usuários da carga de trabalho analisada, o segundo passo na avaliação de padrões de requisições é a caracterização das sessões dos mesmos buscando identificar a frequência dos pedidos para cada serviço e a frequência com a qual os usuários comutam entre os mesmos. Para isso, representamos a sequência de pedidos a serviços em cada sessão como um CBMG, conforme descrito na seção 3., e utilizamos técnicas de agrupamento para encontrar os padrões de requisições que melhor representam o comportamento dos usuários. XXIV CTIC 242

Presença de s Número de Requisições aos s Bytes Transferidos por Porcentagem 9 8 7 6 5 4 3 2 Porcentagem 4 35 3 25 2 5 5 Tráfego (GB) 8 7 6 5 4 3 2 S MSN MESSENGER DNS AIM/ICQ PEER ENABLER MS STREAMING PROXY FTP IRC (a) presença de serviços FTP DATA MICROSOFT DS MSN MESSENGER HALFLIFE DNS E DONKEY COUNTERSTRIKE PEER ENABLER EPMAP S (b) requisições aos serviços E DONKEY COUNTERSTRIKE S WINMX SOULSEEK MICROSOFT DS MSN MESSENGER BITTORRENT FTP DATA MS STREAMING (c) bytes transferidos por serviço Figura 8. popularidade de serviços (usuários comerciais) Em nossa análise, encontramos 3 grupos de sessões de usuários residenciais e o mesmo número para os usuários comerciais. Os dados de cada grupo estão resumidos nas Tabelas 5 e 6. A Figura 9 representa graficamente os CBMGs das sessões dos usuários residenciais e a Figura, das sessões comerciais. O grafo 9(b), que representa os usuários que se limitam a navegar em sites Web a maior parte do tempo, corresponde ao grupo 2 da Tabela 6. O grafo 9(c) modela os usuários que utilizam aplicações P2P (como o Kazaa), que correspondem àqueles que estão no grupo 3 da Tabela 5. Analisando esse último CBMG em conjunto com sua respectiva tabela é possível verificar que a carga que este exerce no provedor é significativamente superior à carga dos outros grupos de usuários. É interessante observar que a co-variância da distribuição dos dados analisada por cada grupo separadamente é significativamente menor que aquela que considera todas as sessões (Tabela ) o que mostra que, de alguma forma, conseguimos encontrar grupos representativos de sessões, mais homogêneas que aquelas que se dividem apenas em residenciais e comerciais. Tabela 5. Grupos de usuários residenciais (CV = co-variância) grupos de usuários grupo grupo 2 grupo 3 requisições aos serviços (36%) (97%) (64%) MS-DS (3%) MSN (3%) (36%) EPMAP (22%) MSN (2%) # de sessões completadas 2775 (4%) 5548 (8%) 858 (6%) total de bytes recebidos (GB) 43,39 (6%) 894,2 52,49 (59%) (35%) total de bytes enviados (GB) 7,47 (8%) 4,62 722,7 (77%) (5%) duração média das sessões (horas) e CV 9,94 (2,3) 5,23 (,86) 5,68 (,86) bytes recebidos por sessão (MB) e CV 52,9 (3,7) 6,63 (4,3) 4,7 (2,64) bytes enviados por sessão (MB) e CV 26, (4,87) 2,63 (3,69) 68,6 (3,69) 4% 66% P2P 34% 84% 93% MS DS 4% 5% 3% 2% EPMAP 95% 4% S 2% 86% 98% 9% P2P 22% % 78% (a) grupo (b) grupo 2 (c) grupo 3 Figura 9. grupos de usuários residenciais XXIV CTIC 243

Tabela 6. Grupos de usuários comerciais (CV = co-variância) grupos de usuários grupo grupo 2 grupo 3 requisições aos serviços (73%) (96%) (24%) S (4%) S (3%) (54%) (46%) # de sessões completadas 483 (8%) 477 (77%) 9 (5%) total de bytes recebidos (GB) 7,93 (9%) 65,6 (3%) 25,4 (6%) total de bytes enviados (GB) 5,92 (7%), (4%) 63,86 (79%) duração média das sessões (horas) e CV 8,22 (,6) 5,32 (4,7) 4,9 (,59) bytes recebidos por sessão (MB) e CV 38,2 (3,5) 3,99 (4,3) 7,78 (2,79) bytes enviados por sessão (MB) e CV 2,55 (4,) 2,38 (3,8) 4,9 (3,4) 3% 5% S 82% 95% 3% 2% 78% 4% S 2% 98% 23% 89% P2P 77% 22% (a) grupo 86% (b) grupo 2 % (c) grupo 3 Figura. grupos de usuários comerciais 5. Conclusões e Trabalhos Futuros Diversos estudos vêm sendo publicados considerando a caracterização de diferentes serviços Web, tais como o, streaming media e P2P. Entretanto, existem poucos estudos disponíveis que avaliam os serviços de Internet de banda larga em conjunto. Neste trabalho analisamos a atividade dos usuários de banda larga, estudando de forma quantitativa e qualitativa a carga gerada por ela. A caracterização utilizou logs coletados em pontos específicos de um provedor de acesso (registros da autenticação dos usuários e do tráfego gerado por eles) e foi feita a nível de sessãoeanível de requisição. Alguns dos resultados encontrados são: (i) o tempo entre chegada de sessões de clientes residenciais e comerciais segue uma distribução exponencial, (ii) para sessões de clientes residenciais e também comerciais, o número de bytes enviados e recebidos pode ser modelado através de uma distribuição de, (iii) através do uso do CBMG descobrimos seis grupos de usuários com padrões de requisições significativamente diferentes entre si. Os resultados apresentados neste trabalho são uma primeira tentativa de caracterizar o comportamento de usuários banda larga. Estamos trabalhando no refinamento da caracterização dos CB- MGs, para avaliar o comportamento de outros sistemas como por exemplo, Web Services. Em paralelo, a ferramenta BUBA, produto da iniciação científica do bolsista, continuará sendo aperfeiçoada. Referências (24). The Broadband Difference. Pew & American Life. www.pewinternet.org. Arlitt, M., Friedrich, R., and Jin, T. (999). Workload Characterization of a Web Proxy in a Cable Modem Environment. Technical Report HPL-999-48, Internet Systems and Applications Laboratory - HP Laboratories Palo Alto. XXIV CTIC 244

Arlitt, M. and Jin, T. (2). Workload Characterization of the 998 World Cup Web Site. IEEE Network, 4(3):3 37. Barford, P., Bestavros, A., Bradley, A., and Crovella, M. E. (999). Changes in Web Client Access Patterns: Characteristics and Caching Implications. World Wide Web, Special Issue on Characterization and Performance Evaluation, 2(-2):5 28. Calais, P. H., Albergaria, E. T., Rocha, L., Marques, H. T., Almeida, J. M., Meira, W., and Almeida, V. (25). BUBA: Uma Ferramenta para Análise de Comportamento de Usuários de Internet de Banda Larga. 23o Simpósio Brasileiro de Redes de Computadores - Salão de Ferramentas. Costa, C., Cunha, I., Borges, A., Ramos, C., Rocha, M., Almeida, J., and Ribeiro-Neto, B. (24). Analyzing Client Interactivity in Streaming Media. In Proceedings 3th World Wide Web Conference, New York, NY. Floyd, S. and Paxson, V. (2). Difficulties in Simulating the Internet. IEEE/ACM Transactions on Networking, 9(4). Gummadi, K., Dunn, R., Saroiu, S., Gribble, S., Levy, H., and Zahorjan, J. (23). Measurement, Modeling, and Analysis of a Peer-to-Peer File-Sharing Workload. In Proceedings of the 9th ACM Symposium on Operating Systems Principles (SOSP-9), Bolton Landing, NY. Hamada, T., Chujo, K., Chujo, T., and Yang, X. (24). Peer-to-Peer Traffic in Metro Networks: Analysis, Nodeling and Policies. IEEE/IFIP Network Operations & Management Symposium (NOMS 24). Hartigan, J. (975). Clustering Algorithms. John Wiley and Sons, Inc. Lakshminarayanan, K. and Padmanabhan, V. (23). Some Findings on the Network Performance of Broadband Hosts. Internet Measurement Workshop (IMC 3), pages 45 5. Leibowitz, N., Ripeanu, M., and Wierzbicki, A. (23). Deconstructing the Kazaa Network. 3rd IEEE Workshop on Internet Applications (WIAPP 3). Marques, H. T., Almeida, J. M., Rocha, L. C. D., Meira, W., Calais, P., and Almeida, V. A. F. (24). A Characterization of Broadband User Behavior and their e-business Activities. SIGMETRICS Perform. Eval. Rev., 32(3):3 3. Mensacé, D. and Almeida, V. (2). Scaling for e-business: Technologies, models, Performance and Capacity Planning. Prentice Hall, Upper Saddle River - NJ. Netflow (25). www.cisco.com/warp/public/732/tech/netflow. Rubens, C. R. S. W. A. and Simpson, W. (2). Remote Authentication Dial In User Service (radius) rfc 2865. Saroiu, S., Gummadi, K., Dunn, R., Gribble, S., and Levy, H. (22). An Analysis of Internet Content Delivery Systems. In Proceedings of the Fifth Symposium on Operating Systems Design and Implementation (OSDI 22). Tutschku, K. (24). A Measurement-based Traffic Profile of the edonkey Filesharing Service. Proc. of the 5th Passive and Active Measurement Workshop (PAM), Antibes Juan-les-Pins, France. XXIV CTIC 245