ESTUDO EMPÍRICO DO FENÔMENO SMALL WORLD EM REDES SOCIAIS



Documentos relacionados
Redes de Computadores. Camada de Aplicação Teoria de Redes Complexas: Conceitos Básicos em Grafos

Organização e Arquitetura de Computadores I

Grafos. Redes Sociais e Econômicas. Prof. André Vignatti

Figura 5.1.Modelo não linear de um neurônio j da camada k+1. Fonte: HAYKIN, 2001

1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3.

Dadas a base e a altura de um triangulo, determinar sua área.

Parte 4-B Mais Exemplos. (específicos - redes de computadores)

AMBIENTE PARA AUXILIAR O DESENVOLVIMENTO DE PROGRAMAS MONOLÍTICOS

Arquitetura de Rede de Computadores

1) MANUAL DO INTEGRADOR Este documento, destinado aos instaladores do sistema, com informações de configuração.

Roteiro. Arquitetura. Tipos de Arquitetura. Questionário. Centralizado Descentralizado Hibrido

O método de Monte Carlo: algumas aplicações na Escola Básica

Redes. Redes não aleatórias

2 Atualidade de uma base de dados

3 Classificação Resumo do algoritmo proposto

CURSO ON-LINE PROFESSOR GUILHERME NEVES

4 Segmentação Algoritmo proposto

Java. para Dispositivos Móveis. Thienne M. Johnson. Novatec. Desenvolvendo Aplicações com J2ME

MRP II. Planejamento e Controle da Produção 3 professor Muris Lage Junior

Aula 20. Roteamento em Redes de Dados. Eytan Modiano MIT

DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE

UNIVERSIDADE DE SÃO PAULO. Faculdade de Arquitetura e Urbanismo

7.Conclusão e Trabalhos Futuros

Módulo 4. Construindo uma solução OLAP

Introdução ao Modelos de Duas Camadas Cliente Servidor

7Testes de hipótese. Prof. Dr. Paulo Picchetti M.Sc. Erick Y. Mizuno. H 0 : 2,5 peças / hora

Análise de Redes Sociais

O que é a estatística?

x0 = 1 x n = 3x n 1 x k x k 1 Quantas são as sequências com n letras, cada uma igual a a, b ou c, de modo que não há duas letras a seguidas?

Capítulo 4 - Roteamento e Roteadores

Engenharia de Software III

IW10. Rev.: 02. Especificações Técnicas

Balanceamento de Carga

UNIVERSIDADE FEDERAL DE SANTA CATARINA

Tabela de roteamento

Árvores Binárias de Busca

O que é Gestão de Projetos? Alcides Pietro, PMP

1. NÍVEL CONVENCIONAL DE MÁQUINA

4 Avaliação Econômica

Capítulo 3. Avaliação de Desempenho. 3.1 Definição de Desempenho

Banco de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri. Banco de Dados Processamento e Otimização de Consultas

PRINCÍPIOS DE INFORMÁTICA PRÁTICA OBJETIVO 2. BASE TEÓRICA. 2.1 Criando Mapas no Excel. 2.2 Utilizando o Mapa

Usando o Arena em Simulação

Cláudio Tadeu Cristino 1. Julho, 2014

Algoritmos e Estruturas de Dados II. Trabalho Prático 2

Quadro de consulta (solicitação do mestre)

MAT 461 Tópicos de Matemática II Aula 3: Resumo de Probabilidade

Vetores. Definição geométrica de vetores

BC-0506: Comunicação e Redes Algoritmos em Grafos

Engenharia de Requisitos Estudo de Caso

Aula 8 Circuitos Integrados

Curso: Redes II (Heterogênea e Convergente) Tema da Aula: Características Roteamento

Feature-Driven Development

CAP. I ERROS EM CÁLCULO NUMÉRICO

Metodologia e Gerenciamento do Projeto na Fábrica de Software v.2

Capítulo 9. Gerenciamento de rede

a 1 x a n x n = b,

Na medida em que se cria um produto, o sistema de software, que será usado e mantido, nos aproximamos da engenharia.

PROBLEMA DO CARTEIRO CHINÊS

Introdução a Banco de Dados

3 SCS: Sistema de Componentes de Software

DIMENSIONANDO PROJETOS DE WEB-ENABLING. Uma aplicação da Análise de Pontos de Função. Dimensionando projetos de Web- Enabling

Teoria de Redes e o papel dos bancos no mercado interbancário Brasileiro

ICORLI. INSTALAÇÃO, CONFIGURAÇÃO e OPERAÇÃO EM REDES LOCAIS e INTERNET

Extração de Requisitos

PROJETO DE REDES

MATERIAL DIDÁTICO: APLICAÇÕES EMPRESARIAIS SISTEMA DE APOIO À DECISÃO (SAD)

Ivan Guilhon Mitoso Rocha. As grandezas fundamentais que serão adotadas por nós daqui em frente:

1.1. Organização de um Sistema Computacional

6 Construção de Cenários

Figura 01: Aplicações do Filtro Espacial Passa-Baixa.

UNIVERSIDADE FEDERAL DO PARANÁ UFPR Bacharelado em Ciência da Computação

TRANSMISSÃO DE DADOS Prof. Ricardo Rodrigues Barcelar

Simulação Computacional de Sistemas, ou simplesmente Simulação

Mídias sociais como apoio aos negócios B2C

Complemento IV Introdução aos Algoritmos Genéticos

2. Método de Monte Carlo

Prof. Samuel Henrique Bucke Brito

Busca em Espaço de Estados

Solução de problemas por meio de busca (com Python) Luis Martí DEE/PUC-Rio

INTELIGÊNCIA ARTIFICIAL

MÓDULO 6 INTRODUÇÃO À PROBABILIDADE

INTELIGÊNCIA ARTIFICIAL Data Mining (DM): um pouco de prática. (1) Data Mining Conceitos apresentados por

Global T126 e GFS), executando para ambos os horários (00Z e 12Z), utilizando

Mídias sociais como apoio aos negócios B2B

SUMÁRIO 1. AULA 6 ENDEREÇAMENTO IP:... 2

4 Experimentos Computacionais

Prof. Samuel Henrique Bucke Brito

Algoritmos e Estrutura de Dados III. Árvores

Módulo 8 Ethernet Switching

Projetos. Universidade Federal do Espírito Santo - UFES. Mestrado em Informática 2004/1. O Projeto. 1. Introdução. 2.

O ENSINO DE CÁLCULO NUMÉRICO: UMA EXPERIÊNCIA COM ALUNOS DO CURSO DE CIÊNCIA DA COMPUTAÇÃO

SISTEMA DE GERENCIAMENTO DE PROJETOS - REDMINE MANUAL DE USO

Software de segurança em redes para monitoração de pacotes em uma conexão TCP/IP

Conceitos Importantes:

Prof. Júlio Cesar Nievola Data Mining PPGIa PUCPR

Introdução à Simulação

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

4 Avaliação Experimental

BCC204 - Teoria dos Grafos

Transcrição:

Anais do 13 O Encontro de Iniciação Científica e Pós-Graduação do ITA XIII ENCITA / 007 Instituto Tecnológico de Aeronáutica, São José dos Campos, SP, Brasil, Outubro, 01 a 04, 007 ESTUDO EMPÍRICO DO FENÔMENO SMALL WORLD EM REDES SOCIAIS Hélder Toshiro Suzuki Instituto Tecnológico de Aeronáutica Rua H8C, nº311, S José dos Campos, SP, Brasil, CEP 18-46 Bolsista PIBIC-CNPq heldersuzuki@gmailcom Carlos Henrique Costa Ribeiro Instituto Tecnológico de Aeronáutica Pr Mal Eduardo Gomes, 50, S José dos Campos, SP, Brasil, CEP 18-900 carlos@itabr Resumo É realizada uma bree introdução sobre o fenômeno Small-World e os principais conceitos são definidos Os algoritmos clássicos para o cálculo exato de métricas de rede são analisados e erifica-se a iniabilidade do uso desses algoritmos para análise de redes grandes São então apresentados métodos para estimar essas métricas É descrita a eolução das ferramentas de análise utilizadas, e a partir da reprodução de um experimento clássico para erificação do fenômeno é proposto um noo parâmetro baseado na distribuição da métrica betweeness centrality suficiente para identificar a presença do fenômeno Small-World em grafos Finalmente, uma análise de um grafo real de grande porte retirado de uma rede social é apresentada 1 Introdução Estudos recentes sugerem que diersas redes que ocorrem na natureza apresentam o fenômeno Small-World, eidenciado por uma combinação de certos alores estatísticos (characteristic path length pequeno e clusterring coefficiente grande) medidos sobre a rede de interesse, e caracterizado pela alta eficiência na troca de informações Este fenômeno pode ser obserado em uma grande quantidade de redes biológicas e sociais, tais como redes neurais[9], mapas colaboratios e redes de co-autoria[10] Pesquisas em redes Small-World em geral podem ter aplicações no entendimento de redes Small-World naturais ou na reprodução deste fenômeno em redes artificiais de interesse, como redes peer to peer (PP) e comunicação entre agentes autônomos A modelagem de redes sociais em grafos pode ser uma tarefa muito subjetia, pois definir o peso de uma aresta que representa uma relação interpessoal depende muito das propriedades da rede social que se quer analisar[1] Por exemplo, o critério a ser utilizado na modelagem de grafos sociais para estudar a propagação de doenças sexualmente transmissíeis proaelmente dee considerar se dois indiíduos (representados por értices) mantêm ou já tieram contato sexual (representado por uma aresta) Para simplificar a análise de redes isando o fenômeno Small-World, neste artigo serão considerados apenas grafos simples não ponderados, não direcionados e conexos A análise de redes de relacionamento em geral é feito a partir do cálculo de métricas apropriadas, que são definidas a seguir 11 Definições básicas e conenções Sejam V e E conjuntos não-azios tais que E {{ u, w} u, w V, u w} Um grafo G é definido como um par ordenado G : = ( V, E) Sejam V e e = ( u, w) E, dizemos então que é um értice de G, e é uma aresta de G e que u e w são értices adjacentes ou izinhos V é o conjunto de értices de G, E é o conjunto de arestas de G, e podem ser denotados, respectiamente, por V (G) e E (G) V e E serão usualmente representados por n e m O grau de V é denotado por g ( ou g e definido por g( : = {{, w} E; w V}, ie a quantidade de izinhos de em G O grau médio, k, de G é m k( G) : = media{ g( } = n 1 Definição characteristic path length Um caminho P em um grafo G é uma seqüência finita P = (,,, N ), N 1 em (G) : 1 V tal que { i 1, i} E( G), i =,3,, N P é um caminho de 1 até N e seu comprimento é N 1, a quantidade de

Anais do XIII ENCITA 007, ITA, Outubro, 01-04, 007 arestas que atraessa Sejam, V ( G) u, se existir caminho em G de u até, a distância mínima entre u e, é o menor comprimento dentre todos os caminhos em G de u até, e é denotada por d ( u, O characteristic path length, L, é a mediana das médias das menores distâncias entre cada értice e todos os outros L = mediana{ media{ d ( u, }; u V} V 13 Definição clustering coefficient A izinhança Γ de V (G) é o subgrafo de G que consiste dos értices adjacentes a, não incluindo o próprio O clustering coefficient de V (G), γ (, mede a proporção de izinhos de que são izinhos entre si E( Γ ) γ ( =, g g γ ( 1, g = 1 = O clustering coefficient de G é C( G) : = media{ γ ( } 14 Definição betweeness centrality = =, s, t V ( G), o número de caminhos mínimos de s Seja σ ( s, t) { P P ( s, u1,, ud ( s, t ) 1, t) é caminho em G} até t em G, e σ ( s, t o número de caminhos mínimos de s até t que contêm o értice como intermediário σ ( s, t = { P P = ( s, u1,, ud ( s, t) 1, t) é caminho em G; m {1,, d( s, t) 1}, = um},, s, t V ( G) A dependência de um par ( s, t) em um értice é definida por σ ( s, t δ ( s, t =, e δ ( s = σ ( s, t é a dependência de σ ( s, t) t s em O betweeness centrality de é definido por c ( = δ ( s O betweeness centrality de um értice indica a importância do értice para as distâncias mínimas entre pares de outros értices do grafo 15 Algoritmos Clássicos Esta Seção apresenta os algoritmos clássicos utilizados para o cálculo das métricas apresentadas nas Seções 1 e 13 15 1 Algoritmo clássico para o cálculo do characteristic path length Seja G um grafo conexo Entrada: (G) u V (G), execute uma busca em largura com raiz em u, determinando d ( u,, V (G) d ( u) media{ d( u, ; V}, u V (G) Ordene { d ( u)} L mediana{ d ( u); u V} Saída: 15 Algoritmo clássico para o cálculo do clustering coefficient Seja G um grafo conexo Entrada: (G) V (G), determine γ ( da seguinte forma: g = 1 Se, γ ( 1 B s

Anais do XIII ENCITA 007, ITA, Outubro, 01-04, 007 S 0 Senão, Para todo { u, w} V ( Γ( ) : S + 1 S γ ( g ( g 1) Saída: C media{ γ ( ; V} 16 Análise dos algoritmos clássicos S, se u e w são adjacentes em G A determinação da complexidade dos algoritmos clássicos apresentados para os cálculos do characteristic path length e do clustering coefficient de um grafo é necessária para erificar teoricamente a iabilidade desses algoritmos 6 para grafos grandes ( n > 10 ) 161 Teorema para o algoritmo 151 O algoritmo 151 retorna o characteristic path length e é O( n( n m + log( n) )) Demonstração: + Pela definição 1 o algoritmo 151 calcula corretamente o characteristic path length São executadas n buscas em largura, O ( n ) operações para o cálculo de d ( u), u V e uma ordenação de n elementos para o cálculo de L Sabemos que uma busca em largura tem custo linear O ( n + m) e a ordenação lea n n O n n + m + log n O( log ( )), portanto a complexidade do algoritmo 151 é ( ( ( ))) 16 Teorema para o algoritmo 31 O algoritmo 15 retorna o clustering coefficient e é Ω( ( k 1) ) Demonstração: n Pela definição 3 o algoritmo calcula corretamente o clustering coefficient Se g ( = 1, é necessário 1 > ( g ( 1) operação para fazer γ ( 1 Se g (, V ( Γ ( ) = g(, então são necessárias pelo menos g( supondo uma representação de grafo que permita determinar se u e são adjacentes em (1) g g( ( g( 1) ( g( 1) = > operações ( Da desigualdade de Jensen [5], temos que 1 1 então ( g( 1) n ( k 1) 17 Método Monte Carlo operações para determinar γ (, O, então para o cálculo de γ (G) são necessárias pelo menos 1 ( g( 1) ( g( 1) ( g( 1) V, mas g( 1 = m n = n( k 1), n n O custo para determinar os alores exatos do characteristic path length e do clusterring coefficient utilizando-se os algoritmos 151 e 15 é muito grande para grafos de grande porte (n > 10 6 ) Foram então considerados métodos para determinar alores aproximados dessas métricas de redes utilizando-se um esforço computacional muito menor com relação ao cálculo dos alores exatos

Anais do XIII ENCITA 007, ITA, Outubro, 01-04, 007 171 Definição (ε, δ)-aproximação Suponha que Z 1, Z, são independentes e distribuídos identicamente (idi) no interalo [0,1] com média µ Seja, δ [0,1] P ( µ (1 ε ) ~ µ µ (1 + ε )) 1 Como C é definido por C = media{ γ ( }, uma (ε, δ)-aproximação de C será denotada por (ε, δ)-c ε, então µ ~ é uma (ε, δ)-aproximação de µ se δ 17 Definição (ε, δ)-mediana * Para uma ariáel aleatória, X, com distribuição F(X), M q é uma p-mediana se P( X M p ) > p e P( X M p ) > 1 p Seja ε, δ [0,1], então µˆ é uma (ε, δ)-mediana se 1 ε 1+ ε P ˆ µ = M ; p, 1 δ p Como L é definido por L = mediana{ media{ d( u, }; u V}, (ε, δ)-l é definida por ( ε, δ ) L : = ( ε, δ ) mediana{ media{ d( u, }; u V} 173 Determinação dos alores aproximados Para determinar uma (ε, δ)-aproximação do clustering coefficient de uma rede, foi utilizado o algoritmo de aproximação AA descrito por Dagum[3] E para determinar uma (ε, δ)-mediana do characteristic path length de uma rede foi utilizado o algoritmo Median estimation descrito por Huber[] 18 Algoritmos para determinação do betweeness centrality Brandes[6] descreeu um algoritmo exato que determina o betweeness centrality de todos os értices de um grafo com custo O(nm) de tempo e O(n+m) de espaço Posteriormente, junto com Pich, propôs um método para estimar o betweeness centrality por meio da determinação da dependência de alguns értices-origem com relação a todos os outros[7], baseando-se no trabalho de Eppstein e Wang[8] Resumidamente, o algoritmo exato de Brandes[6] baseia-se em uma recorrência que permite o cálculo da dependência de um értice origem para todos os outros em tempo linear, e iterando o értice de origem obtém-se a dependência de todos os értices com relação a todos os értices, e portanto o betweeness centrality, em tempo O(nm) O algoritmo de estimação[7], por sua ez, determina a dependência de alguns értices escolhidos aleatoriamente com relação a todos os outros e, extrapolando o resultado parcial, obtém a aproximação para o betweeness centrality Ferramentas de análise O desenolimento de uma primeira ferramenta de análise foi inicialmente realizado na linguagem Jaa 15 utilizando-se a IDE NetBeans[13], o projeto do software foi orientado a objetos, e baseou-se nos algoritmos clássicos para a determinação do characteristic path length e do clustering coefficient de grafos Nesta primeira ferramenta também foi criada uma interface gráfica (Figura 1) de modo a facilitar a utilização do programa na execução de experimentos O caráter modular permitiu posteriormente a adição de um módulo gerador de grafos para a reprodução do experimento de Watts-Strogatz[1] Percebeu-se que para grafos grandes, a ferramenta em Jaa apresentou problemas práticos no tratamento de grafos O oerhead causado pelas estruturas da linguagem fez com que a simples leitura do grafo nas estruturas de dados apresentasse um desempenho inaceitáel Para contornar este problema, foi desenolida uma ferramenta nas linguagens C e C++, obtendo-se ganhos substanciais no tempo de processamento e leitura do grafo É importante citar que só o tempo de leitura da entrada foi reduzido por um fator de 500, desde a primeira ersão da ferramenta de análise em Jaa até a última ersão desenolida em C/C++ * Huber[] define (p, ε)-mediana com probabilidade 1- δ, mas aqui estamos interessados apenas quando p = 05, então adaptações necessárias foram feitas à definição Nas definições de Dagum[3] para a (ε, δ)-aproximação e de Huber para a (ε, δ)-mediana os papéis de ε e δ são inertidos Para eitar confusão a definição de Dagum foi adotada como base

Anais do XIII ENCITA 007, ITA, Outubro, 01-04, 007 Figura 1: Tela inicial da ferramenta desenolida em Jaa com módulo para reprodução do experimento de Watts- Strogatz Os algoritmos clássicos para o cálculo das métricas de redes também foram implementados nesta noa ersão, e empiricamente erificou-se a iniabilidade computacional desses algoritmos (tal como preisto na análise teórica descrita na Seção 16) Também foram implementados os métodos Monte Carlo para determinação de (ε, δ)- aproximação e (ε, δ)-mediana de forma genérica e adaptáel para os cálculos aproximados das métricas de redes, characteristic path length e clustering coefficient A escolha da estrutura de dados para a representação dos grafos tee que considerar os custos de tempo e memória dos algoritmos em grafos a serem utilizados Com isto em mente, uma lista de adjacências foi escolhida para representar os grafos, por resultar num custo de memória O ( n + m) e permitir uma busca em largura em tempo O ( n + m) Entretanto, cabe obserar que o custo para erificar a adjacência de dois értices não é O (1) como suposto na demonstração do Teorema 16, mas O (min{ g u, g }) nesta representação Claramente este fato não inalida a aplicabilidade do Teorema 313 na análise da implementação utilizada, pois o teorema estabelece um limite inferior para o custo de O (min{ g u, g}) que é maior do que o O (1) suposto na demonstração Os custos de adicionar e remoer arestas também são proporcionais ao grau dos értices Essas operações serão importantes na implementação de métodos construtios de grafos É claro que poderíamos utilizar outra representação de grafo que permitisse o custo de O (1) para erificação de adjacências, no entanto o custo para iterar sobre os izinhos de um értice (como numa representação por hash tables) poderia ser afetado, fazendo com que a busca em largura deixasse de ser linear em n e m Apesar disto, a medição do characteristic path length, que foi implementada utilizando-se buscas em largura é a operação que mais requer recursos computacionais dentre as métricas utilizadas Para facilitar a leitura dos dados na forma de lista de adjacências, o formato dos arquios de entrada adotado fornecia, para cada értice, o grau e uma lista dos értices adjacentes Inicialmente, o arquio era armazenado em modo texto, posteriormente, foi obserada uma redução no tempo de leitura da entrada por um fator de 10 ao armazenar o grafo em um arquio binário 3 Reprodução do experimento de Watts-Strogatz Até alguns anos atrás, o estudo teórico de grafos consideraa primordialmente apenas grafos puramente regulares ou puramente aleatórios[1][1] Tal modelagem permitia determinar árias características sobre tais grafos, obserando comportamentos locais bem definidos, no caso de grafos regulares, ou comportamentos globais estatisticamente bem definidos, no caso de grafos aleatórios No entanto tais modelos não apresentaam o fenômeno Small-World como foi obserado em árias redes reais A ocorrência do fenômeno Small-World em um grafo é caracterizada por um clustering coefficient grande e um characteristic path length pequeno O clustering coefficient é considerado grande se for muito maior do que o clustering coefficient de um grafo aleatório de mesmas dimensões e próximo do clustering coefficient de um grafo regular de mesmas dimensões O

Anais do XIII ENCITA 007, ITA, Outubro, 01-04, 007 characteristic path length, por sua ez, é considerado pequeno se for muito menor do que o characteristic path length de um grafo regular e próximo do characteristic path length de um grafo aleatório de mesmas dimensões C C >> C Regular Small World Aleatório L << L L Regular Small World Aleatório O experimento de Watts-Strogatz[14] procurou explorar fenômenos em grafos intermediários, analisando a ariação das métricas em estruturas que topologicamente se encontram entre grafos regulares e grafos aleatórios 31 Definição Grafo d-ring-lattice Um grafo d-ring-lattice de n értices é tal que existe uma função bijetora r : V {0,1,, n 1} e dois értices u, V, u são adjacentes se e somente se r( u) = ( r( + i) mod n, 1 i d Visualmente é como se todos os értices fossem dispostos em torno de um círculo, e cada értice é conectado por uma aresta aos d értices mais próximos à direita e à esquerda Da definição, os graus de cada értice e, consequentemente, o grau médio, de um d- Ring-Lattice são d 3 Definição Parâmetro B Para analisar a distribuição do alor do betweeness centrality de todos os értices propomos o parâmetro B, que representa a proporção dos értices de um grafo G cujo betweeness centrality supera o dobro da média: B(G) = { V(G) B C( > B C( G) } V(G) BC ( onde B C( G) é o betweeness centrality médio de um grafo: ( G) B C( G) = V ( G) 33 Procedimento, Para gerar grafos intermediários entre grafos regulares e grafos aleatórios, inicia-se com o um grafo d-ring-lattice regular Para cada aresta do grafo há uma probabilidade 0 p 1 para que esta aresta seja remoida do grafo e que uma aresta aleatória não existente seja adicionada ao grafo no lugar Note que este processo não altera a quantidade de arestas do grafo, portanto preserando o grau médio Para p = 0 temos o grafo d-ring-lattice regular intacto Quando p = 1 temos um grafo aleatório com k = d A Figura fornece uma isualização esquemática dos grafos gerados para o experimento No experimento em questão as propriedades estruturais dos grafos são medidas por meio do characteristic path length e do clustering coefficient Para conenientemente compararmos a ariação dessas métricas com relação a p, esses alores estarão normalizados com relação às respectias métricas quando p = 0 Figura : Visualização do experimento de Watts-Strogatz Ilustração retirada do artigo publicado na reista Nature [1]

Anais do XIII ENCITA 007, ITA, Outubro, 01-04, 007 Foram adicionadas à ferramenta em Jaa as classes desenolidas especificamente para este experimento Deido ao caráter modular e orientado a objetos do projeto, foi uma tarefa relatiamente fácil a integração das classes de medição e de geração de grafos Para que fosse possíel comparar os resultados com o experimento original de Watts- Strogatz, a reprodução foi realizada com os mesmos parâmetros, n = 1000 e d = 5 O experimento de Watts também foi reproduzido utilizando-se a ferramenta desenolida em C/C++ com as implementações dos algoritmos de cálculo aproximado do clusterring coefficient, do characteristic path length e do algoritmo de cálculo exato do betweeness centrality O desempenho superior da ferramenta desenolida em C/C++ possibilitou a realização de um maior número de medições ao longo do experimento 34 Resultados Os resultados das medições exatas nos grafos gerados ariando-se a probabilidade 0 p 1 estão na Figura 4 Para comparação, o gráfico gerado originalmente por Watts-Strogatz está na Figura 3 É importante obserar que deido à quantidade relatiamente pequena de értices e arestas (n = 1000 e m = 10000), grafos gerados com probabilidades muito pequenas ( p 10 3 ) podem apresentar características ariáeis, já que nessa faixa têm menor chance de apresentar um comportamento estatístico uniforme, sobretudo quando a métrica é sensíel no interalo em questão, 4 3 como ocorre com o characteristic path length para 10 < p < 10 Esta dispersão é eidente na Figura 5 Figura 3: Gráfico do experimento de Watts-Strogatz original Ilustração retirada de [1] Figura 4: Reprodução do experimento de Watts-Strogatz, usando ferramenta em Jaa e algoritmos clássicos de medição

Anais do XIII ENCITA 007, ITA, Outubro, 01-04, 007 Pode-se comparar a eolução da média do betweeness centrality e do characteristic path length na Figura 6 Notase que não há correlação significatia do fenômeno Small-World com relação a média do betweeness centrality, porém a noção intuitia de que quando o characteristic path length é pequeno a importância de todos os értices para os caminhos mínimos é grande, e portanto o betweeness centrality médio também é grande, é confirmada para os grafos do experimento de Watts Um resultado não-triial e bastante interessante é que o parâmetro B aparenta ser um indicador suficiente da presença do fenômeno Small-World no caso do experimento de Watts De fato, obsera-se na Figura 7 que os maiores alores de B coincidem com a região onde o characteristic path length é pequeno e o clustering coefficiente é grande Figura 5: Reprodução do experimento de Watts-Strogatz utilizando a ferramenta desenolida em C/C++ com os métodos Monte Carlo 1,0 B(p)/Bmax L(p)/Lmax 0,5 0,0 1E-4 1E-3 0,01 0,1 1 p Figura 6: Eolução do characteristic path length e da média do betweeness centrality com relação a probabilidade p

Anais do XIII ENCITA 007, ITA, Outubro, 01-04, 007 Figura 7: Eolução do parâmetro B, L e C com relação a probabilidade p O parâmetro B representa um indicador suficiente para o fenômeno Small-World nos grafos do experimento de Watts-Strogatz 4 Experimentos em uma rede social real 41 A rede social Orkut O Orkut (wwworkutcom) é um famoso sítio de relacionamentos ia Internet bastante popular no Brasil, onde cada usuário administra um perfil, podendo adicionar o perfil de outras pessoas na sua lista de amigos utilizando-se critérios pessoais [11] Como foi comentado anteriormente, uma das principais dificuldades em modelar redes sociais é a subjetiidade do critério ao decidir se duas pessoas são ou não conectadas na rede social No caso da rede social do Orkut, não se tem uniformidade no critério de adição na lista de amigos, pois cada pessoa pode utilizar critérios arbitrários Além disso, a rede é incompleta, pois nem todas as pessoas possuem conta no Orkut e mesmo que tenham nada garante que as listas de amizade são deidamente atualizadas pelos usuários Apesar destas limitações em assumir o Orkut como um modelo de uma rede social real, dee ser obserado que o foco deste trabalho não é um estudo específico sobre redes sociais, não interessando fundamentalmente a fonte do grafo 6 a ser estudado, mas sim o fato do grafo ser relatiamente grande ( n 10 ), apresentar características do fenômeno Small-World [4] e não ter sido artificialmente gerado como no experimento de Watts-Strogatz 4 Tratamento dos Dados Os experimentos foram realizados utilizando-se uma amostra do Orkut (sub-grafo) fornecida pela empresa Google Os dados sobre rede social do Orkut precisaram ser normalizados para que pudessem ser analisados pelos softwares desenolidos Os dados são exatamente os mesmos que foram utilizados em [4], e o procedimento no tratamento dos dados foi análogo Os rótulos dos értices foram renomeados numa seqüência numérica de 1 a n Para esta tarefa, um pequeno software específico foi desenolido utilizando hash tables para armazenar os rótulos antigos e noos dos értices Além disso, os dados foram formatados para facilitar a leitura na estrutura de lista de adjacências, conforme comentado na Seção O grafo fornecido possui 138633 értices distribuídos em 1741 componentes conexas, sendo que a maior componente conexa possui 1381565 értices representando mais de 99,6% do total de értices Como é desejado trabalhar com grafos conexos, o restante do grafo foi descartado, sobrando uma única componente conexa com n = 1381565 e m = 40066866, esta componente será denotada por G Orkut

Anais do XIII ENCITA 007, ITA, Outubro, 01-04, 007 43 Resultados As medições em G Orkut foram realizadas utilizando-se a ferramenta desenolida em C e C++ já especificada, rodando em um computador AMD Athlon XP 800+ com 51 MB de RAM Deido ao eleado custo computacional, foram calculadas aproximações das métricas, (ε, δ)-l e (ε, δ)-c Os resultados estão apresentados na Tabela 61 (01, 01)-L 510 (001, 001)-C 00 Tabela 01: Métricas de G Orkut Foram necessárias 483441 amostras para o cálculo de (001, 001)-C e 1504 s de processamento no total Para o cálculo de (01, 01)-L foram necessárias 1306 amostras e 959 s (~50 min) de processamento no total Os resultados são compatíeis com os obtidos por Borges[4] 5 Conclusão O parâmetro B proposto, baseado na distribuição do betweeness centrality dos értices de um grafo, mostrou ser um indicador suficiente da presença do fenômeno Small-World nos grafos do experimento de Watts Este resultado é importante pois eidencia a importância da distribuição do betweeness centrality na caracterização do fenômeno Small- World, indicando que estudos mais aprofundado sobre a distribuição do betweeness centrality e de outros parâmetros correlatos podem representar um importante passo na caracterização das propriedades de grafos Small-World A análise do G Orkut foi realizada com os algoritmos de aproximação, deido à iniabilidade dos algoritmos exatos para grafos desta magnitude, e permitiu erificar resultados anteriores sobre o mesmo grafo Forneceu ainda uma noção sobre o processamento necessário para análises de grafos dessa magnitude Os resultados obtidos são animadores A ocorrência de redes Small-World na natureza sugere que a solução ótima para diersos tipos de problemas, do ponto de ista da sobreiência e adaptabilidade em um ambiente seletio, contém agrupamentos e relações com características Small-World Melhorias em ferramentas de análise e a proposta de noos parâmetros de rede podem tornar possíel a tipificação topológica dos értices e a identificação de clusters e comunidades nas redes Small-World, possibilitando tanto aplicações em redes existentes como na síntese de redes artificiais Ficou eidente que a análise de uma rede Small-World real demanda grande esforço computacional, portanto o aumento da eficiência das ferramentas de análise é essencial para futuros estudos mais aprofundados do fenômeno Small-World 6 Referências [1] WATTS, D Small Worlds: The Dynamics of Networks Between Order and Randomness Princeton: Princeton Uniersity Press, 1999 pág 11-89 [] HUBER, M Nearly Optimal Running Time for Monte Carlo Sampling School of Operations Research and Industrial Engineering: Cornell Uniersity, 1997 [3] DAGUM, P et al An optimal algorithm for Monte Carlo estimation SIAM Journal on Computing, [Sl], ol 9, n 5, pág1484-1496, abril 000 [4] BORGES FILHO, E Análise do Fenômeno Small-World em uma Rede de Relacionamentos na Internet 006 47f Trabalho de Conclusão de Curso (Graduação) Instituto Tecnológico de Aeronáutica, São José dos Campos [5] Jensen s inequality Wikipedia Disponíel em <http://enwikipediaorg/wiki/jensen's_inequality> Acesso em dez 006 [6] BRANDES, U A Faster Algorithm for Betweeness Centrality Journal of Mathematical Sociology, [SI], 5(): 163-177, 001 [7] BRANDES, U; PICH, C Centrality Estimation on Large Networks Department of Computer and Information Science Uniersity of Konstanz August 18, 006 [8] EPPSTEIN, D; WANG, J Fast approximation of centrality Journal of Graph Algorithms and Applications, 8(1):39 45 004

Anais do XIII ENCITA 007, ITA, Outubro, 01-04, 007 [9] STAM, C J; JONES, B F et al Small-World Networks and Functional Connectiity in Alzheimer's Disease Cerebral Cortex Vol 17, No 1 pp 9-99 January 007 [10] NEWMAN, M E J Scientific collaboration networks II Shortest paths, weighted networks, and centrality Physical Reiew E Vol 64 June 001 [11] Orkut Disponíel em: <http://wwworkutcom> Acesso em: 4 de Agosto de 007 [1] Bollabas, B Random Graphs, Academic Press, London, 1985 [13] NetBeans Disponíel em: <http://wwwnetbeansorg> Acesso em: 3 de Julho de 006 [14] WATTS, D J; STROGATZ, S H Collectie Dynamics of Small-World Networks Nature, [Sl], ol 393, pág 440-44, junho 1998