Uma Investigação acerca da Conectividade da Web Brasileira

Tamanho: px
Começar a partir da página:

Download "Uma Investigação acerca da Conectividade da Web Brasileira"

Transcrição

1 CENTRO FEDERAL DE EDUCAÇÃO TECNOLÓGICA DE MINAS GERAIS Mestrado em Modelagem Matemática e Computacional Valter Ribeiro Lima Júnior Uma Investigação acerca da Conectividade da Web Brasileira Belo Horizonte Agosto de 2014

2 CENTRO FEDERAL DE EDUCAÇÃO TECNOLÓGICA DE MINAS GERAIS Mestrado em Modelagem Matemática e Computacional Valter Ribeiro Lima Júnior Uma Investigação acerca da Conectividade da Web Brasileira Dissertação de mestrado submetida ao Programa de Pós-Graduação em Modelagem Matemática e Computacional, como parte dos requisitos para a obtenção do título de Mestre em Modelagem Matemática e Computacional. Orientador: Prof. Cristina Duarte Murta Coorientador: Prof. Adriano César Machado Pereira Belo Horizonte Junho de 2014

3 Agradecimentos Agradeço a minha minha orientadora Cristina e ao meu coorientador Adriano pela paciência e conhecimentos compartilhados. Agradeço também aos colegas de mestrado pelo apoio e ajuda nos estudos. Agradeço a CAPES pelo apoio nanceiro tão necessário para concluir este mestrado. Por m, agradeço a minha família e minha namorada Natália pelo apoio e incentivo aos estudos.

4 Resumo A Web é uma rede complexa de informação e de comunicação construída a partir do modelo de hipertexto, cujo aspecto central é a conectividade. Na representação da Web como um grafo, os vértices são documentos HTML, comumente denominados páginas, e as arestas são links que apontam de uma página para outra. Essa dissertação examina a seguinte questão: quão conectada é a Web brasileira? Para analisar essa questão, foram feitas duas coletas da Web brasileira, uma tendo como alvo o domínio.br, e a segunda tendo como alvo a Web governamental brasileira (.gov.br). A amostra da Web obtida representa cerca de 7% da Web brasileira. Os dados coletados foram modelados como grafos dirigidos e analisados de acordo com modelos estatísticos e computacionais. A conectividade e a estrutura topológica dos grafos foi analisada a partir dos resultados de métricas tais como a distribuição dos graus de entrada e de saída, os componentes fortemente conectados, as distâncias entre os vértices e o betweenness. Os resultados indicam que a Web brasileira apresenta características similares às obtidas em estudos correlatos. Além disso, a Web brasileira contém sítios muito conectados internamente, porém, como rede, é minimamente conectada. Palavras-chave: Web Brasileira, Grafos, Web, Redes Complexas.

5 Abstract The Web is a complex network of information and communication built from the hypertext model, whose central feature is the connectivity. In the representation of the Web as a graph, the vertices are HTML documents, commonly called pages, and the edges are links pointing from one page to another. This dissertation examines the question: how connected is the Brazilian Web? To examine this question, two datasets were collected from the Brazilian Web, one focusing the domain.br, and the second targeting the Brazilian governmental's Web (.gov.br). The sample obtained from the Web crawler is about 7% of the Brazilian Web. The datasets were modeled as directed graphs and analyzed according to statistical and computational models. The network connectivity and the topological graph structure were analyzed from the results of metrics such as the distribution of the input and output degrees, the strongly connected components, the distances between the vertices and the betweenness. The results indicate that the Brazilian Web features are similar to those reported in previous studies. Moreover, the Brazilian Web sites are very much connected internally, however, as a network, it is minimally connected. Keywords: Brazilian Web, Graphs, Web, Complex Networks.

6 Sumário Lista de Figuras 9 Lista de Tabelas 11 1 Introdução Escopo Objetivos Contribuições Estrutura da Dissertação Conceitos e Trabalhos Relacionados Redes Complexas Teoria de Grafos Grafos Não-dirigidos Grafos Dirigidos O Grafo da Web Registros da Web Brasileira Considerações Finais Coleta de Dados e Metodologia Modelagem dos Grafos Métodos de Análises dos Grafos Estudos com o HTTrack Comparação com Estatísticas da Web Brasileira Considerações Finais

7 4 Resultados Resultados do Grafo.br Maior Componente Fortemente Conectado do Grafo.br Análise do Grafo.br via Pajek Resultados do HTTrack Resultados do Grafo.gov.br Maior Componente Fortemente Conectado do Grafo.gov.br Análise do Grafo.gov.br via Pajek O Censo da Web Governamental Brasileira Comparação entre os grafos.br e.gov.br Conclusão Contribuições Trabalhos Futuros Referências Bibliográcas 88

8 Lista de Figuras 2.1 (a) Representação de um grafo não-dirigido. (b) Componentes conectados. (c) Representação de um grafo dirigido Componentes fortemente conectados em um grafo dirigido. Figura extraída de [Rocha 2007] Representação do grafo da Web Componentes em um grafo da Web. Figura adaptada de [Vitali et al. 2011] Etapas da modelagem dos grafos Graus do grafo.br Ranking dos graus do grafo.br Frequência dos graus do grafo.br Ajuste dos graus do grafo.br Graus do maior CFC do grafo.br Rank dos graus do CFC do grafo.br Frequência dos graus do maior CFC Ajuste dos graus do maior CFC do grafo.br Graus de entrada do grafo.br no Pajek Graus de saída do grafo.br no Pajek Componentes fortemente conectados do grafo.br no Pajek Os 20 vértices com os maiores valores de betweenness no grafo.br Universos de 5 vértices CFCs de 5 vértices Universos de 69 vértices CFCs de 69 vértices

9 4.17 Graus do grafo Ranking dos graus do grafo.gov.br Frequência dos graus de entrada e de saída do grafo.gov.br Ajuste dos graus do grafo.gov.br Graus do maior CFC do grafo.gov.br Ranking dos graus do CFC do grafo.gov.br Frequência dos graus do CFC do grafo.gov.br Ajuste dos graus do maior CFC do grafo.gov.br Graus de entrada do grafo.gov.br no Pajek Graus de saída do grafo.gov.br no Pajek Componentes fortemente conectados do grafo.gov.br no Pajek Os 20 vértices com os maiores valores de betweenness no grafo.gov.br

10 Lista de Tabelas 2.1 Principais domínios da Web brasileira Distribuição dos domínios.gov.br por estado Extração dos sítios das URLs Distinção entre sítios e subsítios Laços após a extração dos sítios Arestas repetidas após a extração dos sítios Trecho da lista de arestas do grafo.gov.br Números obtidos das modelagens Dimensões dos grafos de códigos HTTP 2xx e 3xx Sítios do componente fortemente conectado de 5 vértices Sítios do componente fortemente conectado de 69 vértices Extração do domínio de um sítio Dados da modelagem do grafo.br Os 24 vértices com mais laços no grafo.br Os 20 arcos com mais repetições no grafo.br Dados estatísticos sobre os graus do grafo.br Os 20 vértices com os maiores graus de entrada Os 20 vértices com os maiores graus de saída Dados estatísticos das distâncias Quantidade de componentes fortemente conectados no grafo.br Dados de domínios por DPN Dados estatísticos sobre os graus do CFC do grafo.br Dados estatísticos das distâncias do CFC

11 Dimensões do modelo da gravata no grafo.br Comparação dos graus de saída dos subgrafos de 5 vértices Os 20 vértices com os maiores graus de saída dos subgrafos de 69 vértices Conexões inexistentes no CFC do HTTrack Dados da modelagem do grafo.gov.br Os 20 vértices com mais laços Os 20 arcos com mais repetições no grafo.gov.br Dados estatísticos sobre os graus do grafo.gov.br Os 20 vértices com os maiores graus de entrada do grafo.gov.br Os 20 vértices com os maiores graus de saída do grafo.gov.br Dados estatísticos das distâncias do grafo.gov.br Quantidade de CFC no grafo.gov.br Dados estatísticos sobre os graus maior do CFC do grafo.gov.br Dados estatísticos das distâncias no maior CFC do grafo.gov.br Dimensões do modelo da gravata no grafo.gov.br Porcentagem de sítios separados por estado

12 Capítulo 1 Introdução A Web é uma aplicação da Internet concebida por Tim Berners-Lee entre 1989 e 1991, cujo objetivo primordial é a troca de informações [Easley and Kleinberg 2010]. Porém, a Web popularizou-se somente a partir do m da década 1990, fato de grande importância para a comunicação. Como a Web é um meio pouco controlado, qualquer indivíduo ou organização pode criar sítios sem qualquer restrição em relação a quantidade da páginas ou de links [Barabási et al. 2000a]. Este fato ocasionou um crescimento irregular, transformando a Web em uma rede grande e complexa, o que dicultou determinar sua conectividade ou até mesmo identicar a localidade efetiva de determinada informação. A Web é constituída basicamente por um conjunto de documentos denominados páginas. Estas páginas possuem conexões virtuais para outras páginas, o que ocasiona a formação de um grafo dirigido. Deste grafo, os vértices são representados por páginas HTML e as arestas dirigidas por hyperlinks que apontam de uma página para outra. Os estudos da Web como um grafo tiveram origem no m da década de Um dos estudos pioneiros [Barabási and Albert 1999] apresenta um modelo para explicar o surgimento de redes aleatórias. Neste estudo os autores descrevem sistemas para comparar suas características com as do modelo apresentado. Destes sistemas pode-se citar a World Wide Web e outros, como as redes genéticas e padrões de citação em artigos cientícos, que podem ser representados como redes com uma complexa topologia em que sua principal característica comum é que a conectividade dos vértices (grau) segue uma distribuição de lei de potência. Outro trabalho de destaque apresenta um estudo realizado especicamente acerca da conectividade do grafo da Web. O estudo apresentou a conectividade, a estrutura ma- 12

13 13 croscópica e também a já conhecida distribuição de lei de potência dos graus de um grafo de cerca de 200 milhões de vértices e 1,5 bilhão de arestas [Broder et al. 2000]. Este foi o primeiro estudo a representar a estrutura topológica da Web de acordo com o modelo conhecido como gravata borboleta. Após esse período, observa-se uma ausência de estudos relacionados ao grafo da Web na primeira metade da década de Importantes estudos foram realizados entre 1999 e 2000, destes pode-se citar [Barabási and Albert 1999], [Broder et al. 2000], [Kumar et al. 2000] e [Barabási et al. 2000a]. Porém, só a partir de meados da década de 2000 sugiram novos estudos relevantes em [Modesto et al. 2005], [Boccaletti et al. 2006] e [Easley and Kleinberg 2010]. Um fato que deve ser lembrado é que, independentemente do grafo ou de como ele foi coletado, em todos os estudos foram identicadas as leis de potência na distribuição dos graus, o modelo de gravata borboleta em sua estrutura topológica e comprimentos de menores caminhos relativamente curtos, que se enquadram no fenômeno small-world. A rede da World Wide Web (WWW) ou simplesmente Web possui grande tamanho e grande quantidade de interações e, por ser uma rede muito dinâmica, produz uma topologia que é desconhecida [Barabási et al. 2000a]. A partir disto, nosso estudo foi motivado pelo interesse em analisar como está conectada a Web brasileira. Apenas dois estudos relacionados foram encontrados nos trabalhos de [Veloso et al. 2000] e [Modesto et al. 2005]. Apesar de serem estudos sobre a Web brasileira, eles pouco se referem à conectividade, dando maior enfoque ao conteúdo descoberto nas páginas. A partir de nosso trabalho são respondidas questões sobre o tema, por exemplo, como a Web está conectada e se a rede é conexa de maneira a ser possível percorrê-la sem a ajuda de máquinas de busca. Também é possível responder se a estrutura da Web brasileira atual ainda pode ser representada pelo modelo em forma de gravata [Broder et al. 2000]. Além disso, investigamos se a Web governamental brasileira (.gov.br) possui características similares a Web brasileira como um todo. A partir desse estudo será possível identicar, dentre outros fatores, quais páginas possuem as maiores quantidades de conexões. A descoberta destas páginas pode ter diversas nalidades como, por exemplo, ser de interesse para anunciantes que querem divulgar al-

14 1.1. ESCOPO 14 gum tipo de produto na Web. A partir destas páginas é possível alcançar uma gama maior de pessoas, pois muitas vezes estas páginas são populares. Além disto, os resultados de estudos da Web auxiliam no desenvolvimento de algoritmos de classicação de páginas, como o PageRank, e podem até detectar anomalias na rede [Broder et al. 2000]. Estudos da Web como um grafo servem como base para criação de ferramentas para melhor estudá-la e também podem servir de base para estudos de disseminação de informação na rede. A partir do estudo da Web também é possível fazer previsões de como a Web estará estruturada no futuro [Chayes 2013]. Outro fato caracterizado no estudo da Web é sua interdisciplinaridade, que abrange três áreas do conhecimento: ciência da computação, matemática e estatística. À ciência da computação cabe a rede de compartilhamento de informação, neste caso o estudo da Web. Da matemática são estudados os grafos, que constituem a forma de representar a Web em estudos de conectividade. Por m, a estatística é usada na obtenção de dados de métricas dos grafos como a distribuição probabilística dos graus, o coeciente de variação dos graus, os graus e as distâncias médias. 1.1 Escopo Este trabalho consiste em realizar uma investigação acerca da conectividade e estrutura topológica da Web Brasileira. Para tanto, foram estudadas duas partes desta Web, a primeira caracteriza um estudo que abrange a Web brasileira como um todo. Como Web brasileira consideramos todos os sítios que nalizam seu domínio com.br. O segundo estudo tem como foco apenas a Web governamental brasileira, em que foram estudados os sítios que abrangem o domínio.gov.br. A investigação foi realizada utilizando-se um conjunto de técnicas de análise que calculam métricas em amostras do grafo da Web. Destas métricas pode-se citar a distribuição probabilística dos graus de entrada e saída, a identicação dos componentes fortemente conectados, estatísticas de distância entre vértices, a centralidade e o coeciente de agrupamento. Foram utilizados dois grafos no estudo, e ambos foram modelados a partir de registros de duas coletas obtidos com uso do Web crawler Heritrix. O primeiro se trata do grafo de um retrato da Web.br, do qual teve sua coleta realizada no período de 9 de dezembro

15 1.1. ESCOPO 15 de 2012 a dia 14 de janeiro de O segundo grafo foi obtido a partir de um universo contido dentro da Web brasileira, mais especicamente a Web governamental brasileira (.gov.br). Este grafo foi modelado a partir de uma coleta realizada no mês de agosto de Um fato que deve ser descrito sobre o projeto refere-se às limitações de coletas utilizando Web crawler. Uma das limitações contidas na coleta está relacionada ao seu tamanho, pois dicilmente seria possível coletar todas as páginas da Web por crawling. Diante disto, o processo foi executado em períodos limitados, ou seja, os dados obtidos representam apenas um retrato da Web a partir de uma coleta feita em um período de tempo. As congurações do Web crawler também inuenciam o resultado, pois em uma das coletas só foram registrados sítios do domínio.br e na outra somente sítios do domínio.gov.br, o que ocasiona a exclusão de links de outros domínios contidos nas páginas visitadas. O protocolo de exclusão de robôs, que é um arquivo contido em cada sítio que especica as permissões de acesso para coletores, também é outra limitação. A não coleta de determinados sítios é prejudicial à navegação da rede, pois afeta a forma de como ela está conectada. Outra limitação que deve ser levada em consideração é a dinamicidade da Web: páginas podem ser modicadas, excluídas e novas páginas podem ser criadas enquanto a coleta está sendo realizada. Outra limitação de estudos de conectividade de grafos baseados em coletas por Web crawler é a respeito de como os links são visitados. É uma característica do crawler não repetir a varredura de links que referenciam páginas já encontradas, isto ocorre pois o crawler prioriza mais a descoberta de novas páginas que a forma como as páginas conhecidas estão conectadas entre si. Este fato gerará um caminhamento do tipo árvore geradora mínima no grafo. Para contornar esta situação, foram realizadas coletas exaustivas no software HTTrack de componentes fortemente conectados identicados no grafo.br. A partir da análise destas coletas completas, bem como a comparação com os dados do [Registro.br 2013], foi possível estimar o quão próximo a coleta por Web crawler está de representar elmente a referida amostra da Web.

16 1.2. OBJETIVOS Objetivos O objetivo geral deste trabalho é investigar a conectividade da Web brasileira a partir de subgrafos construídos com base em coletas realizadas na Web.br e Web.gov.br. Por ser a Web uma rede com a principal função de estabelecer conexões, o estudo da conectividade intervém diretamente na localidade de informação na rede. Pode-se descobrir através do estudo, se a rede está conectada a ponto de ser possível percorrê-la por inteiro para identicar determinada informação ou se esta tarefa é possível somente com a ajuda de máquinas de busca. Os objetivos especícos são: Identicar aspectos da conectividade de subgrafos gerados a partir de uma coleta da Web brasileira, inclusive do subgrafo da Web governamental brasileira; Investigar a possibilidade de inferir a conectividade da Web a partir de uma coleta via crawler; Avaliar se a conectividade contida em um subgrafo gerado a partir de um registro de coleta do Web crawler Heritrix pode ser considerada representativa por meio de comparação com o mesmo subgrafo modelado a partir de uma coleta exaustiva do HTTrack; Identicar a similaridade dos resultados obtidos nas análises com os já contidos na bibliograa sobre a Web. 1.3 Contribuições Como contribuições desse trabalho, foram respondidas questões relacionadas a conectividade da Web atual, tais como: Quais são os sítios mais conectados na Web brasileira; Qual é a quantidade de componentes fortemente conectados da Web brasileira e o quanto ela está fragmentada; Se a estrutura topológica da Web brasileira ainda é representada pelo modelo gravata borboleta;

17 1.4. ESTRUTURA DA DISSERTAÇÃO 17 Se um grafo gerado a partir de uma coleta de Web crawler representa elmente a conectividade da Web; Se a conectividade da Web atual possibilita navegar na rede sem a interferência de buscadores como o Google. Adicionalmente, para nosso estudo foi desenvolvida uma ferramenta útil na análise da conectividade de grafos, a qual foi disponibilizada em um repositório online Estrutura da Dissertação Esta dissertação está estruturada em cinco capítulos para melhor organização e entendimento do texto. O Capítulo 2 apresenta conceitos e trabalhos relacionados sobre grafos, redes complexas e grafo da Web, que se mostram necessários para contextualizar o trabalho. A metodologia de pesquisa utilizada no desenvolvimento do trabalho é apresentada no Capítulo 3. O Capítulo 4 apresenta os resultados dos estudos que envolvem os grafos.br e.gov.br. Por m, o Capítulo 5 apresentam as conclusões, contribuições, trabalhos futuros e considerações obtidas ao m dos estudos. 1 https://github.com/valtincomp/implementacoes-semish

18 Capítulo 2 Conceitos e Trabalhos Relacionados Este capítulo apresenta uma revisão dos conceitos relacionados a grafos, redes complexas e World Wide Web (WWW) necessários ao entendimento desse trabalho. A Seção 2.1 apresenta um estudo sobre diversos tipos de redes complexas e suas características. A Seção 2.2 apresenta um estudo sobre teoria de grafos, que se trata da forma mais indicada de representar redes complexas. A Seção 2.3 apresenta denições, características e estudos relacionados ao grafo da World Wide Web. A Seção 2.4 apresenta dados do registro de domínios no país. Por m, a Seção 2.5 apresenta as considerações nais do capítulo. 2.1 Redes Complexas A diculdade da ciência contemporânea para descrever sistemas compostos de elementos não idênticos, que têm interações diversas e não-locais, limita avanços em muitas disciplinas, que vão da biologia molecular à ciência da computação. A diculdade em descrever esses sistemas reside em seu grande tamanho e também seus aspectos dinâmicos. Muitos deles formam redes complexas, cujos vértices são os elementos do sistema e as arestas representam as interações entre eles [Barabási and Albert 1999]. Uma forma simples e objetiva de se denir redes complexas é que se tratam de redes muito grandes, o que torna difícil sua descrição completa [Hofstad 2010]. Os pesquisadores, tanto os interessados nas aplicações, quanto na teoria, realizaram estudos a m de descobrir qual é a quantidade de vértices que estas redes possuem, e qual é a regra para realizar uma conexão de um vértice a outro [Hofstad 2010]. É possível identicar diversos tipos de redes complexas na natureza, também conhecidas por redes reais [Boccaletti et al. 2006]. Entre diversos exemplos destas redes, pode 18

19 2.2. TEORIA DE GRAFOS 19 ser citado uma grande rede formada pelo sistema nervoso, cujos vértices são células nervosas, ligadas por axônios. As redes complexas ocorrem também em ciências sociais, onde vértices são indivíduos ou organizações, e as arestas caracterizam a interação social entre eles. Outra rede complexa existente é a Internet, em que os vértices podem ser sistemas autônomos ou roteadores e as arestas as conexões físicas entre eles. No nível informacional, pode-se descrever as redes de citações em publicações cientícas, em que os vértices são os artigos e as arestas são citações a outros artigos; e a WWW, cujos vértices são documentos HTML conectados por links que apontam a partir de uma página para outra [Barabási and Albert 1999]. Uma conclusão dos trabalhos empíricos realizados nesta área é que muitas redes reais compartilham as mesmas características [Hofstad 2010]. Apesar das diferenças inerentes, a maioria das redes reais são caracterizadas pelas mesmas propriedades topológicas, como, por exemplo, distribuições de cauda pesada dos graus, comprimento de caminhos relativamente pequenos, elevados coecientes de agrupamento e estrutura das comunidades [Boccaletti et al. 2006]. Muitas destas redes são livres de escala, o que signica que os graus dos vértices são invariantes, no sentido de que a distribuição empírica dos graus é praticamente independente do tamanho do grafo, e a proporção de vértices com grau k está perto de k γ para γ > 1, ou seja, muitas redes reais seguem uma lei de potência na distribuição do grau [Hofstad 2010]. A abordagem do comprimento dos caminhos entre dois vértices pode ser aprofundada com o estudo de um fenômeno conhecido como small-world, que indica que a partir de um vértice pode-se alcançar outro vértice na rede com, em média, seis passos [Caldarelli 2007]. Este estudo começou em 1960 por Stanley Milgram. Seu experimento se deu por meio do envio de uma carta para um destinatário em outra cidade, com o nome do destinatário e um endereço aleatório da cidade. O experimento revelou que a carta foi repassada em média seis vezes até chegar ao destino nal [Boccaletti et al. 2006]. 2.2 Teoria de Grafos Tendo em vista que o objetivo desse trabalho é analisar a conectividade de um grafo da Web brasileira, foi necessário realizar um estudo sobre grafos, que são o modelo mais empregado para representar redes complexas [Boccaletti et al. 2006].

20 2.2. TEORIA DE GRAFOS Grafos Não-dirigidos Matematicamente um grafo não-dirigido pode ser denido por G (V, A), em que V representa um conjunto de vértices (pontos ou nós) e A representa um conjunto com pares ordenados de vértices chamados de arestas [Newman 2003]. A visualização gráca de um grafo é mostrada na Figura 2.1 (a). Um importante item estudado na teoria de grafos relacionado à conectividade é o grau. O grau k i de um vértice i é o número de arestas incidentes em i [Diestel 2005]. Além do grau dos vértices, outras métricas são utilizadas para a caracterização da topologia de um grafo. Uma destas métricas é o componente conectado, que é denido como um subgrafo máximo em que existe um caminho de cada nó para todos os outros (isto é, eles são mutuamente alcançáveis) [Newman 2003]. A Figura 2.1 (b) apresenta um grafo com dez vértices e oito arestas. Esse grafo contém quatro subgrafos. Figura 2.1: (a) Representação de um grafo não-dirigido. (b) Componentes conectados. (c) Representação de um grafo dirigido Grafos Dirigidos A representação de algumas redes complexas como as redes de citações de artigos cientícos e a World Wide Web só é possível por grafos dirigidos, também chamados de grafos direcionados ou dígrafos. Os grafos dirigidos são denidos matematicamente por G (V, A), em que V representa um conjunto de vértices e A representa um conjunto das chamadas arestas direcionadas ou arcos [Diestel 2005]. Um exemplo de um grafo dirigido representado matematicamente é o seguinte: V = {a, b, c, d}, A = {{a, b}, {a, c}, {b, c}, {b, d}, {c, d}}. Os grafos dirigidos apresentam grande semelhança aos grafos descritos anteriormente, se

21 2.2. TEORIA DE GRAFOS 21 diferenciando apenas por algumas características. As arestas contidas nestes grafos possuem uma direção, ou seja, uma aresta existente aponta um caminho entre vértices i e j, não representa um caminho entre j e i. A Figura 2.1 (c) apresenta um grafo dirigido. A direção do arco no grafo dirigido requer nova denição do grau do vértice. Neste seguimento existe, para cada vértice, os graus de entrada denotados por ki in, que são o número de arestas (k in ) apontando para o vértice i em questão. A quantidade de arcos que têm partida em determinado vértice i é denominada grau de saída do vértice k out i [Boccaletti et al. 2006]. A soma do grau de entrada e grau de saída resulta no chamado grau total de um vértice, denotado por ki total. Em grafos dirigidos, componentes fortemente conectados (CFCs) são denidos por um conjunto máximo de vértices contidos em V tal que, para cada par de vértices i e j, existe um caminho dirigido de i para j e um caminho dirigido de j para i. O grafo dirigido da Figura 2.2 exibe quatro diferentes tipos de componentes fortemente conectados. Embora este grafo seja conectado, ele não apresenta um único CFC. Figura 2.2: Componentes fortemente conectados em um grafo dirigido. Figura extraída de [Rocha 2007]. Além dos graus de entrada e saída, e o conceito de componente fortemente conectado, a distância mínima entre dois vértices é outra importante métrica para auxiliar na caracterização da topologia do grafo. O procedimento para calcular a distância entre vértices também serve de base para se obter outras métricas como a excentricidade, denotada por ɛ(i), que se congura como sendo a maior distância entre um vértice i e um outro vértice j dentro de um grafo G. A máxima excentricidade dentro de um grafo é chamada de diâmetro e a mínima é chamada de raio [West 2000]. Das distâncias também é possível se obter a distância média entre pares de vértices em um grafo dirigido, também chamada de distância geodésica, esta é representada pela equação:

22 2.3. O GRAFO DA WEB 22 d = 1 n(n 1) d ij (2.1) em que n é a quantidade total de vértices e d ij é a menor distância entre os vértices i e j [Newman 2003]. O betweenness também se trata de uma métrica relacionada caminhamento no grafo. Ele é denido pela medida de importância da contagem do número de menores caminhos de quaisquer vértices j e k passando através de um determinado vértice i [Boccaletti et al. 2006]. Matematicamente, o betweenness é denotado pela equação: i j b i = j,k N,j k n jk (i) n jk, (2.2) em que n jk é o número de menores caminhos que conectam j e k e n jk (i) é o número de menores caminhos que conectam j e k e passam pelo vértice i. Outra métrica existente é o coeciente de agrupamento. O coeciente de agrupamento de um vértice i, denotado por c i, é a razão entre o número de arestas existentes entre os vizinhos de i e o número máximo de arestas possíveis entre estes vizinhos [Benevenuto et al. 2011]. O coeciente de agrupamento é representado pela seguinte equação: c i = {a jk : j, k N i, a jk A} (2.3) ki total (ki total 1) em que a jk vale 1 caso haja uma aresta que conecte os vértices j e k adjacentes de i, e 0 caso contrário. Nesta equação N i representa a vizinhança do vértice i, ou seja, seus vizinhos adjacentes. O coeciente de agrupamento de um grafo, denotado por c, é dado pela média de c i para todos os vértices de G: C = c = 1 N c i (2.4) iɛn 2.3 O Grafo da Web A estrutura da World Wide Web pode ser representada a partir de um grafo dirigido, em que os vértices são as páginas HTML e as arestas são hyperlinks apontando de uma

23 2.3. O GRAFO DA WEB 23 página para outra [Boccaletti et al. 2006]. A Figura 2.3 ilustra uma simples representação do grafo da Web. O grafo da Web apresenta uma característica marcante. A distribuição probabilística dos graus tanto de entrada quanto de saída segue uma lei de potência [Barabási et al. 2000a] [Chayes 2013] [Barabási et al. 2000b] [Boccaletti et al. 2006]. Como descrito na Seção 2.1, a equação é descrita por P (k) k γ em que k é o grau e γ é uma constante que varia entre 2 e 3 [Boccaletti et al. 2006]. Alguns estudos já realizados sobre a Web em diferentes anos encontraram o valor de γ para o grau de entrada em torno de 2,1. Para o grau de saída, γ varia entre 2,3 e 3 [Donato et al. 2007] [Boccaletti et al. 2006] [Barabási and Albert 1999]. Outra característica marcante na WWW é a dinamicidade da rede. Isso decorre do fato de que constantemente novas páginas são adicionadas, o que ocasiona a criação de novos links entre as páginas, além da religação de arestas de páginas já existentes. Os estudos de [Barabási et al. 2000a] indicam que novas páginas tendem a se conectar a páginas populares que possuem alto grau de entrada. Figura 2.3: Representação do grafo da Web. O estudo de componentes contidos no grafo da Web revela o que alguns autores chamam de "cyber-comunidades"[broder et al. 2000]. Estas comunidades são conjuntos contidos no grafo, que seguem denições já encontradas na literatura, conhecidos como CFC, IN, OUT, Tubos, Tentáculos e Desconectados. A Figura 2.4 apresenta um grafo com essas denições. O conjunto CFC é um componente fortemente conectado que ca centralizado no grafo. O conjunto IN é um componente fraco composto por vértices a partir dos quais é possível alcançar os vértices do CFC. O componente fraco OUT é onde residem os vértices que podem ser alcançados a partir de qualquer vértice contido em CFC. O conjunto Tubos é

24 2.3. O GRAFO DA WEB 24 o conjunto de vértices que conecta vértices de IN diretamente aos de OUT. No conjunto Tentáculos residem vértices com ligações para vértices desconectados do conjunto CFC. Por m, o conjunto Desconectado, como sugere o nome é onde residem os vértices desconectados e pequenos componentes [Donato et al. 2007] [Broder et al. 2000]. Figura 2.4: Componentes em um grafo da Web. Figura adaptada de [Vitali et al. 2011]. Nos estudos realizados por [Broder et al. 2000], foi obtido um grafo de cerca com 200 milhões de vértices e 1,5 bilhão de arestas, gerado a partir de uma coleta no período de maio a outubro de Neste grafo foi vericada a quantidade de vértices em cada componente descrito anteriormente. O componente CFC representou cerca de 56 milhões de vértices (o maior componente encontrado). No componente IN residiam cerca de 44 milhões de vértices e no componente OUT, também cerca de 44 milhões de vértices. Os vértices restantes estavam contidos nos conjuntos Tubos/Tentáculos e Desconectados. Com um grafo de cerca 200 milhões de vértices e 1,4 bilhão de arestas, os resultados dos estudos de [Donato et al. 2007] apresentaram diferenças do estudo acima. O componente CFC representou cerca 33% do grafo, o componente IN ocupava cerca de 11% do grafo. O maior componente contido no grafo foi o OUT, representando cerca de 39% do grafo. Os componentes Tubos/Tentáculos e Desconectados representaram, respectivamente, 13% e 4% do grafo. Outra métrica para ajudar a compreensão da topologia da Web é a distância média entre os vértices (d), descrita na Seção Em um estudo realizado por [Barabási et al. 2000a], os cálculos de distâncias resultaram que, em média, d vale 18,59, ou seja, escolhidas duas páginas aleatórias no grafo da Web seriam necessários, em média,

25 2.3. O GRAFO DA WEB passos para alcançar uma página a partir de outra. O mesmo resultado foi encontrado nos estudos de [Broder et al. 2000], em que a distância média de um vértice i a outro vértice j é também, em média, 19. Ao tratar de estudos sobre a Web brasileira, um dos encontrados é o trabalho de [Veloso et al. 2000]. O estudo apresenta o conteúdo e estrutura da Web brasileira no ano 2000, mais especicamente no mês de abril. Dentre os resultados apresentados, estão os tipos de documentos encontrados e também suas quantidades, dos quais se destacam os documentos HTML, PostScript, PDF, MS Word e de texto puro. Ainda neste trabalhos são exibidos os tipos e quantidade de Domínios de Primeiro Nível (DPN) encontrados na coleta. O estudo ainda se estende para identicar quais são os idiomas mais comuns na Web brasileira. Por m, os autores estimam o tamanho da Web brasileira em relação à quantidade de páginas. Porém, o único resultado do trabalho de Veloso que se assemelha com o nosso foi a identicação da quantidade média de hyperlinks por página visitada, do qual foi encontrado o valor 6,74. Em nosso trabalho representamos este valor como grau médio dos vértices. O outro estudo encontrado sobre a Web brasileira é o trabalho de [Modesto et al. 2005]. Nesse estudo, os autores apresentam um novo retrato da Web brasileira, demonstrando ainda seu conteúdo e estrutura, porém com dados de uma coleta mais atualizada, coletada em março de Para este trabalho foram buscados praticamente os mesmos resultados contidos em [Veloso et al. 2000] com o objetivo visualizar as mudanças na Web em um período de cinco anos. Nosso trabalho se intercede com este quando os autores apresentam a estrutura topológica do grafo de seus estudos. Os autores encontraram em seu grafo o modelo gravata já descrito, em que o componente CFC representa 25,27% do grafo, o componente IN representa 12,95%, o componente OUT representa 45,33%, o componente Tentáculos representam 3,87%, o componente Tubos representam 0,23% e o componente Desconectados representam 12,35% do grafo. Através da pesquisa bibliográca foi encontrado um trabalho que se assemelha ao de [Veloso et al. 2000] e [Modesto et al. 2005], porém que realiza um caracterização da Web portuguesa em [Gomes and Silva 2003]. Neste trabalho autores descrevem detalhes de uma coleta realizada na Web portuguesa, que se entende por sítios com seu domínio terminado

26 2.4. REGISTROS DA WEB BRASILEIRA 26 em.pt, pelo crawler Viúva Negra (VN). A coleta resultou em um registrou cerca de 4 milhões de páginas de 131 mil sítios. Os autores constataram que 85% da Web portuguesa está contida no domínio.pt e que os 15% restantes se tratam de sítios portugueses contidos em domínios como.com,.net,.org e.tv. 2.4 Registros da Web Brasileira O alcance do objetivo de se comparar os dados da Web obtidos a partir de uma coleta por Web crawler, mais especicamente relacionado ao número de sítios por domínio, só é possível se antes for realizada uma pesquisa de como os sítios estão registrados e distribuídos no país. Atualmente no Brasil o órgão que regula o registro de domínios se trata do Registro.br [Registro.br 2013]. O órgão disponibiliza estatísticas que quanticam a Web Brasileira, estes dados poderão ser comparados com os resultados deste estudo. Até o presente momento que esta seção é redigida, precisamente no dia 19 de julho de 2013, estão registrados domínios, distribuídos em cinco categorias. Na categoria Pessoas Físicas estão registrados domínios, o que representa 0,3% do total. Na categoria Prossionais Liberais estão registrados domínios o que representa 1,82% do total de domínios. Para a categoria de Pessoas Jurídicas estão registrados domínios, este que representa 3,26% do total. A categoria Universidade, que contém os Domínios de Primeiro Nível (DPN).edu.br e br, há domínios registrados, que representa 0,11% do total. Por m, a categoria Genéricos que contém os DPNs.com.br,.net.br,.eco.br e.emp.br, totalizam domínios registrados, que representam 94,51% do total. Dos DNPs, o.com.br representa a maioria dos domínios registrados, contendo domínios com este DPN, o que representa 91% do total. Especicamente os domínios de maior frequência e importância da Web são demonstrados na Tabela 2.1 juntamente com a porcentagem de sites que os possuem. Dentre os diversos registros de domínios contidos na Web brasileira, há um estudo relacionado ao domínio.gov.br, mais precisamente o Censo da Web Governamental Brasileira [CGI and NIC 2010]. Este trabalho que mede e acompanha a evolução da Web brasileira, disponibilizando dados numéricos da Web que são importantes referências para esta dissertação. Estes dados são a distribuição por estados dos domínios registrados sobre o DPN.gov.br no Registro.br. A Tabela 2.2 apresentação a ocorrência de domínios

27 2.5. CONSIDERAÇÕES FINAIS 27 Tabela 2.1: Principais domínios da Web brasileira. Domínios Porcentagens.com.br 91,06%.net.br 3,05%.org.br 1,45%.blog.br 0,22%.edu.br 0,07%.gov.br 0,04% Tabela 2.2: Distribuição dos domínios.gov.br por estado. Estado Domínio % de sites do Censo Paraná pr.gov.br 17% Governo Federal gov.br 14% São Paulo sp.gov.br 14% Santa Catarina sc.gov.br 7% Minas Gerais mg.gov.br 7% Rio Grande do Sul rs.gov.br 5% Rio de Janeiro rj.gov.br 5% Bahia ba.gov.br 4% Ceará ce.gov.br 3% Espírito Santo es.gov.br 2% Pernambuco pe.gov.br 2% Mato Grosso do Sul ms.gov.br 2% Goiás go.gov.br 2% Mato Grosso mt.gov.br 2% Pará pa.gov.br 2% Paraíba pb.gov.br 2% Distrito Federal df.gov.br 1% Sergipe se.gov.br 1% Tocantins to.gov.br 1% Alagoas al.gov.br 1% Amazonas am.gov.br 1% Rio Grande do Norte rn.gov.br 1% Rondônia ro.gov.br 1% Piauí pi.gov.br 1% Maranhão ma.gov.br 1% Acre ac.gov.br 0% Amapá ap.gov.br 0% Roraima rr.gov.br 0%.gov.br por estado. 2.5 Considerações Finais O presente capítulo apresentou um estudo teórico da literatura relacionada a redes complexas, grafos e Web. Iniciado pelos estudos de redes complexas, foram descritos o

28 2.5. CONSIDERAÇÕES FINAIS 28 que são e quais os tipos de redes complexas, juntamente com quais as características em comum entre elas. A seguir, foi realizado um estudo sobre grafos, que são o modelo mais usado para representar redes complexas em estudos. Ainda sobre grafos foram estudadas algumas formas de quanticá-los e medi-los. Posteriormente foram realizados estudo sobre a Web, quais suas características e quais os desaos de estudá-la. Um fato constatado nesta etapa de estudos relacionados é o surgimento de artigos sobre a Web como um grafo a partir dos anos de 1999 e Após este período praticamente nenhum artigo que se relaciona a conectividade foi encontrado até o ano de 2005 em que surgiram novos trabalhos relevantes sobre o tema. A partir deste estudo bibliográco foi possível também identicar a principal diculdade de se analisar a Web, que está relacionada ao grande tamanho desta rede, uma vez que isto demanda de muitos recursos computacionais. Devido a esta grande demanda de recursos, estudos da Web são somente realizados a partir de amostas na escala de milhões e até bilhões de URLs, o que mostra a superioridade de empresas como o Google que em 2008 mapeara um trilhão de URLs [Alpert and Hajaj 2008].

29 Capítulo 3 Coleta de Dados e Metodologia Para compreender os desaos de estudar o grafo da Web, inicialmente foi realizado um estudo da bibliograa sobre o universo que engloba redes complexas, grafos e o grafo da Web. A partir deste estudo foi possível dimensionar o tamanho do problema, mais especicamente, saber qual é a forma mais apropriada para representar a Web nesse estudo, quais são as principais técnicas para analisá-la e também as diculdades ao manusear e interpretar dados de tal tamanho. Os dados que compõem a base de estudo deste trabalho foram obtidos por um Web crawler chamado Heritrix. Um Web crawler é um software que trabalha como um robô que percorre a Web a partir de um conjunto de sítios iniciais chamados sementes. A partir das sementes, são realizadas buscas em profundidade nas URLs descobertas, registrando e armazenando os dados encontrados em um arquivo. O arquivo de registros de saída do crawler contém uma série de informações da coleta que podem ser úteis em vários estudos sobre a Web. Cada linha do arquivo de registros contém doze campos com informações da coleta, como no exemplo abaixo. Os campos são separados pelo caractere espaço T17:03:11.804Z LLLLL text/html # sha1:hqmn7z4z7gfhbh6o5jthbaqouwwbbhgt - - Campo 1: representa o timestamp; 29

30 3.1. MODELAGEM DOS GRAFOS 30 Campo 2: código de status do protocolo HTTP; Campo 3: tamanho em bytes do arquivo hospedeiro; Campo 4: URL descoberta na página; Campo 5: código de trilha que mostra o rastro de downloads; Campo 6: URL da página visitada; Campo 7: Tipo de documento de acordo com o formato MIME; Campo 8: identicador da thread que encontrou a página; Campo 9: o timestamp no formato RFC2550/ARC; Campo 10: resumo do conteúdo de acordo com o algoritmo SHA-1; Campo 11: tag source herdada pela URL; Campo 12: coluna para possíveis anotações. Neste trabalho foram utilizadas duas coletas da Web realizadas pelo laboratório e- SPEED do DCC da UFMG, realizada por alguns de seus pesquisadores com quem trabalhamos em cooperação. Ou seja, o processo de coleta não coube a este trabalho. A primeira coleta utilizada foi iniciada em 9 de dezembro de 2012 e se estendeu até o dia 14 de janeiro de Para esta coleta, o Heritrix foi congurado para coletar apenas URLs que tenham seu domínio de primeiro nível terminado em.br, ou seja, apenas URLs pertinentes à Web brasileira. A coleta partiu de sementes e gerou um arquivo de log de 93,8 GBytes que totalizou de linhas de registro. A segunda coleta utilizada neste estudo foi realizada durante o mês de agosto de 2013 e se concentrou apenas na Web governamental brasileira, ou seja, sítios com o domínio de primeiro nível.gov.br. Esta coleta partiu de sementes e gerou um log de 69,6 GBytes com linhas de registro. 3.1 Modelagem dos Grafos A partir dos registros de coleta do Heritrix é possível modelar um grafo com as informações contidas nele. Mais especicamente o campo 6, que contém a URL da página visitada, representa o vértice de origem e o campo 4, que contém o link descoberto na

31 3.1. MODELAGEM DOS GRAFOS 31 Figura 3.1: Etapas da modelagem dos grafos. página visitada, representa o vértice de destino. A partir destes campos presentes em cada linha do arquivo de registros, é possível formar uma aresta dirigida e a junção de todas as arestas forma o grafo. Neste processo de modelagem foram usados apenas os registros que não retornaram erro ao serem acessados, ou seja, páginas que retornaram os códigos HTTP 2xx e 3xx, especicamente os códigos entre 200 e 399. A utilização dos registros com apenas as duas classes de códigos reduziu o arquivo de coleta.br a linhas, 20,3% a menos que o arquivo da coleta original. Para o registro da coleta.gov.br, houve uma redução de 15,9%, que gerou um arquivo de linhas de registro. A partir destas informações iniciou-se a modelagem do grafo, que foi constituído de oito etapas como mostra a Figura 3.1. A primeira etapa foi iniciada extraindo-se os dois campos já citados do arquivo de log utilizando comandos da linguagem AWK [GNU 2013]. A linguagem AWK é contida nativamente em sistemas operacionais Linux e é utilizada processar grandes quantidades de texto. Após este procedimento obtivemos um arquivo que representa uma lista de arcos contendo uma URL completa como vértice de origem e outra URL completa como vértice de destino. A etapa seguinte no processo de modelagem do grafo foi a extração do sítio destas

32 3.1. MODELAGEM DOS GRAFOS 32 Tabela 3.1: Extração dos sítios das URLs. Antes Depois tvmissoes.com.br Tabela 3.2: Distinção entre sítios e subsítios. sítio terra.com.br uol.com.br subsítio cifraclub.terra.com.br pagseguro.uol.com.br URLs. Este procedimento foi realizado por uma função criada na linguagem C que recebe as URLs completas e retornam seus sítios. Nesta função são extraídos todos os caracteres que estão entre as duas barras contidas após o protocolo de acesso e a primeira barra que simboliza o primeiro diretório do sítio. Um exemplo do resultado deste passo pode ser visualizado na Tabela 3.1 que apresenta a URL e o sítio extraído. No processo de extração dos sítios cou considerado que subsítios e sítios seriam considerados vértices distintos no grafo. Esta característica adotada na modelagem foi necessária, pois diferentes subsítios de um mesmo sítio podem ser administrados por diferentes entidades. A Tabela 3.2 apresenta exemplos de tipos de sítios e subsítios encontrados. Na terceira etapa é feita uma ordenação dos arcos am de agrupar os arcos iguais, uma vez que o passo anterior produziu arcos iguais. Esta atividade foi desempenhada pelo programa sort também contido nativamente no Linux, em que cada aresta dirigida foi ordenada pelo primeiro e logo após pelo segundo vértice. Na etapa seguinte do processo de modelagem do grafo foi realizada uma ltragem na lista de arcos, em que foram removidos e contados os laços encontrados, uma vez que se objetiva neste estudo vericar a conectividades entre sítios distintos. A extração dos sítios das URLs no passo anterior ocasionou o surgimento destes laços, pois o que anteriormente eram URLs distintas, que criavam links dentro de um mesmo sítio, agora são vértices iguais. A Tabela 3.3 apresenta um exemplo de formação de um laço encontrado após a extração do sítio. Nesta mesma etapa também foram removidas e contadas as arestas dirigidas repetidas que surgiram no passo anterior. Estas arestas surgiram porque páginas diferentes de um sítio A podem ter links para páginas diferentes de um sítio B, o que produziria, ao reduzir

33 3.1. MODELAGEM DOS GRAFOS 33 Tabela 3.3: Laços após a extração dos sítios. Estado Vértice de Origem Vértice de Destino Antes Depois tvmissoes.com.br tvmissoes.com.br Tabela 3.4: Arestas repetidas após a extração dos sítios. Estado Vértice de Origem Vértice de Destino Antes Depois g1.globo.com g1.globo.com as URLs para sítios, múltiplas arestas A B. A Tabela 3.4 apresenta estas diferenças. Terminadas as ltragens, a lista de arestas contém somente arestas direcionadas distintas. A Tabela 3.5 exibe um trecho deste arquivo. A quinta etapa executada na modelagem tem o objetivo de calcular a quantidade de vértices distintos no grafo. Nesta etapa, um procedimento desenvolvido na linguagem C adiciona todos os vértices distintos encontrados na lista de arcos em um vetor. Esta atividade foi necessária para o cálculo da quantidade de vértices no grafo. Para facilitar a pesquisa neste vetor, que será necessária futuramente, foi realizada uma ordenação do mesmo utilizando o algoritmo Quicksort no sexto passo. O sétimo passo consiste em salvar em arquivo os sítios que estão ordenados no vetor, juntamente com seu índice, fazendo assim um mapeamento do sítio para um respectivo valor numérico dado pelo índice. O oitavo e último passo constitui em substituir cada sítio contido na lista de arcos ltrados por seu índice, gerando assim uma lista de arcos somente com números. Esta tarefa foi desempenhada por uma função construída na linguagem C, que tem como entrada o vértice desejado e o vetor dos vértices mapeados. Por meio de uma busca binária no vetor, ele retorna o índice numérico do vértice desejado. A transformação dos vértices em valores numéricos foi necessária pois, ao carregar o grafo na memória primária da máquina, que irá realizar as análises, o grafo apenas com índices numérico consumirá menos espaço. Ao m do processo de modelagem, os grafos estão representados em disco como uma lista de arcos em que os vértices são índices numéricos que representam os sítios, todos os arcos são distintos e não há nenhum laço. Também ao m da modelagem foi possível obter

34 3.1. MODELAGEM DOS GRAFOS 34 Tabela 3.5: Trecho da lista de arestas do grafo.gov.br. Vértice de Origem adapec.to.gov.br adapec.to.gov.br adapec.to.gov.br adapta.inpa.gov.br adapta.inpa.gov.br adapta.inpa.gov.br adapta.inpa.gov.br adapta.inpa.gov.br adapta.inpa.gov.br adema.se.gov.br adm.balneariopinhal.rs.gov.br adm.balneariopinhal.rs.gov.br admin.es.gov.br administracao.hidrolandia.go.gov.br administracao.hidrolandia.go.gov.br administrativo.ages.df.gov.br admin.prodest.es.gov.br adm.pmf.sc.gov.br adm.pmf.sc.gov.br aebescola.aeb.gov.br Vértice de Destino to.gov.br webmail.adapec.to.gov.br acta.inpa.gov.br blog.adapta.inpa.gov.br insetosaquaticos.inpa.gov.br rodriguesia.jbrj.gov.br scielolab.iec.pa.gov.br balneariopinhal.rs.gov.br radio.balneariopinhal.rs.gov.br comunicacao.hidrolandia.go.gov.br adm2.pmf.sc.gov.br portal.pmf.sc.gov.br Tabela 3.6: Números obtidos das modelagens. Valores Grafo.br Grafo.gov.br Total de Arcos Laços Arcos Repetidos Sementes valores gerados neste processo. A Tabela 3.6 apresenta o número de total de arcos, o número de laços, o número de arcos repetidos e o número de sementes. Estes valores encontrados na modelagem dos grafos tiveram base nas coletas com requisições que retornaram os códigos HTTP 2xx e 3xx. As dimensões dos grafos dos quais foram realizadas as análises estão detalhadas na Tabela 3.7. Tabela 3.7: Dimensões dos grafos de códigos HTTP 2xx e 3xx. Dimensões Grafo.br Grafo.gov.br Vértices Arcos

35 3.2. MÉTODOS DE ANÁLISES DOS GRAFOS Métodos de Análises dos Grafos Após o término das modelagens dos grafos foi dado início ao processo de análise dos mesmos. As análises foram feitas utilizando-se métricas para descrever a conectividade dos grafos. Inicialmente, foram calculados os graus de entrada e de saída, a frequência dos graus de entrada e de saída, a distância entre os vértices e os componentes fortemente conectados. Todas as métricas foram calculadas por algoritmos implementados em linguagem C. Neste mesmo software que executa as métricas, os grafos em formato de lista de arestas dirigidas, que estão armazenados em discos, são lidos e carregados na memória principal como uma matriz de adjacências. A partir desta matriz o procedimento responsável pelo cálculo dos graus armazena os graus de entrada e de saída dos vértices em vetores, além de armazenar estes mesmos graus em um arquivo em disco. A partir dos vetores de graus de entrada e graus de saída, um procedimento calcula quais são os graus mais frequentes e os armazena em um arquivo em disco. O cálculo das distâncias entre quaisquer dois vértices escolhidos aleatoriamente no grafo é feito através do conhecido algoritmo de Dijkstra [Dijkstra 1959]. Do algoritmo foi alterada sua saída para que ele gravasse em um arquivo em disco as distâncias que podem ser percorridas no grafo, juntamente com as quantidades de vértices podem ser alcançados para cada distância. A identicação dos componentes fortemente conectados no grafo é realizada por um procedimento que percorre o grafo executando uma busca por profundidade, marcando os vértices que podem ser alcançados. Neste mesmo procedimento é realizada uma transposição no grafo e novamente é feita uma busca por profundidade marcando os vértices que podem ser alcançados. Cada um dos componentes fortemente conectados são encontrados ao identicar os vértices que possuem as mesmas marcações nos dois grafos. No processo de análise também foram calculados alguns dados estatísticos que não são propriamente métricas de análises de grafos, mas são fundamentais para a identicar a conectividade em qualquer tipo de rede. Os dados estatísticos que couberam a este estudo foram a identicação do maior e menor valor nas amostras, média, mediana e coeciente de variação. Estas estatísticas foram calculadas para os graus de entrada e de saída, e para

36 3.3. ESTUDOS COM O HTTRACK 36 as distâncias. No processo de análise também foi usado o software Pajek, um programa desenvolvido na plataforma Windows para análise, criação e visualização de grandes redes [Pajek 2013]. Inicialmente, a primeira atividade a ser desempenhada para o estudo dos grafos no Pajek é a adequação de nossos grafos. Até então eles eram representados por uma lista de arcos. É necessário que os grafos estejam nos moldes do Pajek para servirem como entrada. O arquivo deve representar o que, no Pajek, se chama network, que deve conter primeiramente a diretiva "*vertices N", em que N é a quantidade de vértices no grafo. Em seguida deve ser explicitada a lista de vértices. Para esta tarefa, foram copiados os índices numéricos, juntamente com os vértices que referenciam do arquivo com os vértices mapeados, gerado na fase de modelagem, para a network a ser criada no Pajek. Em seguida é o momento de descrever as conexões da rede. Desta vez a diretiva utilizada é "*Arcslist"que assume que as arestas serão direcionadas. Para descrever as conexões foi necessário apenas copiar a lista de arcos para a network, nalizando assim sua criação. Com os grafos já adequados para serem bases de estudo no Pajek, o primeiro recurso utilizado do software foi a identicação das estruturas topológicas dos grafos, descritas na Seção 2.3. Esta tarefa é realizada criando-se de uma Partição no Pajek. Esta partição é uma forma de destacar os vértices que desempenham a atividade desejada, neste caso, identicar os grupos contidos no modelo gravata. Também no Pajek foi utilizada a criação de vetores para o cálculo das métricas coeciente de agrupamento e betweenness. Outra utilidade do Pajek nesta dissertação foi para validar os resultados das demais métricas que foram implementadas, a saber, os graus de entrada e de saída, os componentes fortemente conectados e as distâncias entre vértices. Estas métricas também foram calculadas por meio da utilização de partições no Pajek. 3.3 Estudos com o HTTrack No processo de coleta do Heritrix é descoberto um número de páginas muito superior ao número de páginas processadas. Isto ocorre devido a limites físicos de espaço e processamento. O crawler também pode não repetir a varredura de links já encontrados, isto ocorre pois este último prioriza mais a descoberta de novas páginas que a forma como as páginas conhecidas estão conectadas entre si.

37 3.3. ESTUDOS COM O HTTRACK 37 Tabela 3.8: Sítios do componente fortemente conectado de 5 vértices. sítios Com base neste fato descrito, para concluir um dos objetivos deste estudo, que é vericar se uma coleta realizada pelo Heritrix é el a realidade da Web em relação à quantidade de conexões, foi utilizado o software HTTrack [Roche 2013]. O HTTrack é um software multiplataforma que realiza uma coleta exaustiva da Web, ou seja, realiza um download completo das páginas desejadas para um diretório local podendo assim realizar uma navegação oine. Devido à grande necessidade de recursos de rede e armazenamento (disco) exigidas pelo HTTrack foram coletados apenas os sítios de dois componentes fortemente conectados encontrados no grafo.br. O primeiro CFC coletado contém cinco vértices e o segundo contém 69 vértices. Este segundo também se trata do terceiro maior componente fortemente conectado encontrado no grafo.br. Optamos pela escolha do terceiro maior CFC, pois os vértices do segundo maior CFC do grafo.br são todos subsítios de um mesmo sítio. Esta etapa do estudo foi iniciada ao ser realizada uma alteração no algoritmo de descoberta de componentes fortemente conectados desenvolvido na linguagem C. Este novo procedimento recebe como parâmetro o índice numérico do primeiro vértice do CFC, valor já identicado no algoritmo que descobriu os componentes. Ainda neste procedimento é salvo um arquivo de lista de arestas contendo todas as arestas dirigidas do CFC desejado. A partir deste arquivo foi construído um código ainda na linguagem C para separar todos os vértices contidos na lista de arestas e substituí-los pelos sítios dos quais fazem referência. Os sítios encontrados nos componentes podem ser visualizados nas Tabelas 3.8 e 3.9. Após o término da separação dos sítios encontrados nos CFCs, as listas foram importadas para o HTTrack, no qual foram realizadas as coletas em separado. O HTTrack é um software bastante congurável em que é possível fazer diversas modicações nos parâmetros da coleta. Para nossas coletas foram alteradas apenas as taxas máximas de downloads. O seu valor padrão era de 25 KBytes/s e foi alterada para 250 KBytes/s, am de agilizar

38 3.3. ESTUDOS COM O HTTRACK 38 Tabela 3.9: Sítios do componente fortemente conectado de 69 vértices. Sítios

39 3.3. ESTUDOS COM O HTTRACK 39 o processo de coleta. Ao m das coletas, para o CFC de cinco vértices os dados foram coletados em torno de cinco horas, totalizando 602,2 MBytes de espaço em disco. Para o CFC de 69 sítios, os dados foram coletados em aproximadamente de 16 horas, totalizando cerca de 3,2 GB de espaço em disco. Terminadas as coletas foram iniciadas as modelagens dos grafos obtidos. O modelo do grafo quanto aos tipos de ligações entre vértices e identicação de sítios e subsítios é o mesmo da modelagem anterior. Entretanto, como as bases dos dados da qual serão formados os grafos se tratam de diretórios, documentos HTML, imagens, arquivos em ash entre tantos outros, foi necessária a implementação de um novo programa para a modelagem. O código que realiza a modelagem foi implementado na linguagem JAVA e percorre os arquivos do diretório indicado buscando por URLs am de montar uma lista de arestas. Mais especicamente o algoritmo inicia a leitura dos arquivos de código contidos no diretório raiz, que é um parâmetro do programa. Em cada arquivo, o algoritmo busca, a cada linha lida, por hyperlinks que direcionam para outra página. Estes hyperlinks são identicados por expressões regulares que vericam se a string lida contém alguma tag HTML utilizada para direcionar a navegação. Caso encontre uma tag do tipo <a href> e esta não esteja direcionando para uma página do mesmo sítio, é realizada a extração da URL desta string. O processo de armazenamento da URL encontrada é feito primeiramente identicando o nome do diretório onde está armazenado o arquivo que contém a URL, o nome do diretório é o sítio no qual é encontrada a URL. A seguir são inseridos em um arquivo o nome do diretório juntamente com a URL encontrada, formando assim uma aresta direcionada. O processo é repetido realizando uma busca recursiva em todos os diretórios a partir da raiz, e assim, ao nal formando uma lista de arcos. Ao se gerar a lista de arcos a partir da coleta do HTTrack, os vértices ainda são URLs e devem ser transformados em números, como na modelagem da coleta do Heritrix. Para isto foi novamente executado o código feito em linguagem C para a modelagem do grafo do Heritrix, tendo porém, desta vez, a lista de arcos do HTTrack como entrada para o algoritmo. Após a conclusão da modelagem do grafo foi iniciado o trabalho de análise do universo obtido pelo HTTrack e comparação com o mesmo universo encontrado no grafo gerado a

40 3.4. COMPARAÇÃO COM ESTATÍSTICAS DA WEB BRASILEIRA 40 Tabela 3.10: Extração do domínio de um sítio. Antes Depois mg.gov.br pbh.gov.br partir do log do Heritrix. Como universo denimos todas as conexões do CFC e também o primeiro nível de conexões para fora do CFC. Para esta comparação foram calculadas as métricas de graus de saída e componentes fortemente conectados no algoritmo de análise já desenvolvido. Somente o grau de saída foi calculado pois como foram coletados somente os vértices dos CFCs, são desconhecidas as conexões de entrada que não sejam de algum vértice do componente. Na descoberta do componente fortemente conectado foi comparado seu resultado com o componente gerado a partir do grafo do Heritrix, com o objetivo de observar alguma novidade ou mudança nas ligações do componente. Também após a modelagem foi utilizado o software Gephi para representar gracamente os dois componentes fortemente conectados. O Gephi é um software multiplataforma utilizado para criação e manipulação de redes de menor escala [Gephi 2008]. 3.4 Comparação com Estatísticas da Web Brasileira Para validar o alcance da coleta do Heritrix, além dos estudos com o HTTrack foi realizada uma comparação das informações encontrados na coleta com os dados contidos na pesquisa do Censo do.gov.br [CGI and NIC 2010]. Neste momento do estudo foi realizada uma separação e extração de todos os domínios distintos encontrados nos sítios descobertos na coleta da Web governamental brasileira. Nesta fase foi desenvolvido um código na linguagem C para extrair o domínio juntamente com o domínio de primeiro nível dos sítios, ou seja, todo conteúdo contido em torno dos dois últimos pontos da cadeia de caracteres. A Tabela 3.10 exibe o resultado desta extração. Esta extração produz, assim como na fase da modelagem do grafo, domínios repetidos. Para tanto o algoritmo criado se encarrega de armazenar apenas domínios únicos. Ao nalizar os experimentos foram comparadas a quantidade de sítios separados por estados e também a quantidade total de domínios com os dados contidos no Censo do.gov.br. Esta separação ocorreu pela identicação do prexo de cada domínio e contagem de sítios com o mesmo domínio. Um exemplo seria a adição do sítio

41 3.5. CONSIDERAÇÕES FINAIS 41 que pertence ao domínio mg.gov.br à quantidade sítios do estado de Minas Gerais. Esta é uma outra forma de vericar se dados coletados por crawling se aproximam dos dados ociais da Web brasileira. Atividades semelhantes foram desempenhadas no grafo.br, porém, para este foi realizada uma separação dos sítios por domínios de primeiro nível. Esta separação foi realizada no software LibreOce Calc em que a lista de sítios descobertos na fase de modelagem foi tratada como uma planilha. Posteriormente, cada sítio foi agrupado aos demais que possuem o mesmo DPN em uma planilha a parte para serem contabilizados. 3.5 Considerações Finais O texto descrito neste capítulo representou toda a metodologia executada para a obtenção dos resultados contidos no próximo capítulo. O trabalho inicia-se pelos estudos da literatura sobre as formas de se entender, manipular e medir redes, grafos e Web, e descrevendo como e quando foram realizadas as coletas que são a base dos estudos. Posteriormente são descritas as etapas para a obtenção dos grafos.br e.gov.br a partir de suas perspectivas coletas, bem como as métricas utilizadas para analisá-los. Por m, são descritas as etapas utilizadas na validação do estudo a partir de coletas realizadas por Web crawlers, em nosso caso o Heritrix.

42 Capítulo 4 Resultados Esse capítulo apresenta os resultados e análises gerados a partir da metodologia descrita no Capítulo 3. Para melhor descrição e entendimento do texto, este capítulo foi dividido em três seções. A Seção 4.1 apresenta os resultados obtidos do grafo.br, a Seção 4.2 apresenta os resultados obtidos do grafo.gov.br e, por m, a Seção 4.3 apresenta uma comparação dos resultados dos dois grafos. 4.1 Resultados do Grafo.br Inicialmente, os primeiros resultados obtidos foram os do grafo gerado a partir coleta.br. Após a execução das etapas da modelagem descritas na Seção 3.1, esta retornou os valores apresentadas na Tabela 4.1. Ao analisar a Tabela, encontramos o primeiro indício de como a Web é uma rede pouco conectada, uma vez que do total de arcos apenas (arcos únicos e arcos repetidos) são de sítios distintos, ou seja, aproximadamente 2,9% das conexões. A grande quantidade de conexões restante são laços (97,1%). Esta grande quantidade de laços surge na fase da modelagem do grafo em que dos arcos de página para página são transformados em arcos de sítio para sítio como mostra a Tabela 3.3. Tabela 4.1: Dados da modelagem do grafo.br. Dimensões Grafo.br Vértices Arcos únicos Laços Sementes Arcos Repetidos Total de Arcos

43 4.1. RESULTADOS DO GRAFO.BR 43 Com o intuito de vericar quais sítios possuem as maiores quantidades de conexões internas, foram separados todos os vértices que possuíam laços (self-loops). A análise desses resultados sugere que a maior quantidade de conexões contidas na Web são para páginas do mesmo sítio, uma vez que o número médio de laços por sítio é 487,38, um valor alto comparado ao número médio arcos entre sítios distintos é de 14,48. Destes dados também pode ser observado que a quantidade de laços em um vértice pode alcançar valores altos, que superam inclusive os maiores graus de entrada do grafo. Outra descoberta neste experimento foi que 24 vértices possuem laços, que se trata da maior quantidade de laços encontrada. Pela quantidade de sítios com o mesmo número de páginas, trabalhamos com a hipótese, que depois foi avaliada no processo do coletor, de que, por ter um volume grande de sítios no universo de coleta, o Heritrix realizou o escalonamento particionado de forma igualitária entre os maiores sítios. Como a Web não pode ser toda coletada, a coleta foi interrompida depois de um certo período, e no momento da interrupção poderia ser este o status. A Tabela 4.2 lista esses 24 vértices com mais laços no grafo.br. No processo de pós-modelagem do grafo foram também computados os arcos que mais se repetem no grafo, conforme apresentado na Tabela 4.3. É possível identicar que com os arcos ocorreu a mesma limitação identicada na separação das quantidades de laços. Todos os 20 arcos mais repetições, possuem seus valores próximos a seis mil. Dentre estes 20 arcos que mais repetiram no grafo também é possível notar que todos são conexões entre subsítios de um mesmo sítio. As análises do grafo.br começaram ao serem executadas as métricas descritas na Seção 3.2. As análises foram iniciadas pelos graus de entrada e saída e também as frequências dos graus dos vértices do grafo.br. Quanto a análise dos graus, seus dados estatísticos podem ser visualizados detalhadamente na Tabela 4.4. Destes dados foi possível identicar que o vértice fotoblog.uol.com.br possui o grau de entrada 2.977, o maior encontrado. Também foi possível identicar o vértice de maior grau de saída, o vértice que possui o grau Em contraposição com os maiores graus apresentados, foram identi- cados os menores graus tanto de entrada quanto de saída, e este estudo resultou no valor zero para todos eles. O grau médio de entrada é 2,19 para o grafo.br, este valor repete

44 4.1. RESULTADOS DO GRAFO.BR 44 Tabela 4.2: Os 24 vértices com mais laços no grafo.br. Vértice reidocrime.rpgonline.com.br m.vagalume.com.br bracirurgica.com.br blogadao.shopping.uol.com.br adegaparavinho.com.br para o grau médio de saída, pois a soma de todos graus de entrada é igual a soma de todos graus de saída. Os dados de graus de entrada mostraram ser mais simétricos que os graus de saída, isto ocorre devido a mediana dos graus de entrada ter um valor mais próximo dos graus médios. No cálculo do coeciente de variação (COV) é possível identicar a diferença nas amostras dos graus que não é identicada na média. O grafo.br apresenta o coeciente de variação 4,65 para seu grau de entrada, que difere muito do coeciente de variação do grau de saída, representado pelo valor 55,96. A Figura 4.1 apresenta um gráco que contrasta o grau de entrada com o grau de saída dos vértices. Deste gráco é possível identicar vértices com valor alto para os graus de entrada e de saída, representados pela aglomeração de pontos no centro do gráco. Também é possível visualizar que a quantidade de vértices que possuem alto grau de saída e baixo grau de entrada possui uma proporção similar à quantidade de vértices com baixo grau de saída e alto grau de entrada. Para melhor visualizar os valores dos graus, as

45 4.1. RESULTADOS DO GRAFO.BR 45 Tabela 4.3: Os 20 arcos com mais repetições no grafo.br. Arcos N o de repetições todaoferta.uol.com.br messenger.todaoferta.uol.com.br img.papajogos.com.br img.sexotropical.com.br ph1.imotrix.com.br imusica.com.br fotos.imusica.com.br i.bueni.com.br media.paneteria.com.br itaimpaulista.com.br perl.limao.com.br com.limao.com.br dicas-l.com.br assets-cache02.ogao.com.br img.submarino.com.br faro.com.br carangoweb.com.br ibiubi.com.br img.ibiubi.com.br ia.bella.com.br cbb.com.br legado.cbb.com.br gengibre.com.br shopping.uol.com.br image.shopping.uol.com.br Tabela 4.4: Dados estatísticos sobre os graus do grafo.br. Métrica Menor Maior Média Mediana COV Grau de entrada ,19 1 4,65 Grau de saída , ,96 Figuras 4.2(a) e 4.2(b) apresentam, respectivamente, o ranking dos graus de entrada e dos graus de saída ordenados em ordem decrescente. A Figura 4.3 apresenta os resultados da execução da métrica da frequência dos graus de entrada e de saída. Devido à escala logarítmica do gráco para ambos os eixos, os graus de valor zero foram transformados em 0,1 apenas para título de visualização. Ao analisar o gráco é possível notar que, com exceção do grau 0 de entrada, os graus decaem como uma lei de potência, característica comum no grafo da Web [Barabási and Albert 1999]. Ainda na métrica de frequência dos graus, foram realizados ajustes para calcular a inclinação do decaimento dos graus e, consequentemente, obter o valor do expoente desta lei de potência. As Figuras 4.4(a) e 4.4(b) apresentam os grácos ajustados dos graus de entrada e saída, respectivamente. Para os graus de entrada foi encontrado o exponente 2,24, enquanto para os graus de saída foi identicado o exponente 1,71, valores próximos, porém os graus de

46 4.1. RESULTADOS DO GRAFO.BR 46 Figura 4.1: Graus do grafo.br. (a) Graus de entrada (b) Graus de saída Figura 4.2: Ranking dos graus do grafo.br. saída apresentam um maior decaimento. Este fato identicado no experimento se opõe aos estudos de [Boccaletti et al. 2006], que identicou um maior decaimento dos graus de entrada, com o valor do expoente do grau de saída maior que o expoente do grau de entrada. Para melhor apresentar estes resultados no contexto da Web, as Tabelas 4.5 e 4.6 apresentam 20 sítios com os maiores graus de entrada e de saída. As Tabelas exibem os índices dos vértices, os graus, e os sítios que são referenciados pelos índices, respectivamente

47 4.1. RESULTADOS DO GRAFO.BR 47 Figura 4.3: Frequência dos graus do grafo.br. (a) Graus de entrada (b) Graus de saída Figura 4.4: Ajuste dos graus do grafo.br. na primeira, segunda e terceira colunas das Tabelas. Foi observado na Tabela dos vértices com os maiores graus de entrada, que três sítios são blogs especializados em postagem de fotograas, e também que, dentre os vinte, cinco sítios pertencem ao Google, bem como quatro sítios que pertencem ao UOL. Na Tabela dos vértices com os maiores graus de saída foram identicados cinco sítios especializados em realizar algum tipo de busca na Web. A métrica seguinte a ser calculada foi as distâncias entre quaisquer dois vértices. Como resultado, esta métrica apresentou que o grafo pode ser todo percorrido com até 26 passos,

48 4.1. RESULTADOS DO GRAFO.BR 48 Tabela 4.5: Os 20 vértices com os maiores graus de entrada. Vértice Grau de Entrada Sítio fotoblog.uol.com.br onsoftware.softonic.com.br selos.climatempo.com.br cifraclub.terra.com.br dplus.softonic.com.br contador.s12.com.br maps.google.com.br letras.terra.com.br pagseguro.uol.com.br blog.i.uol.com.br picasaweb.google.com.br groups.google.com.br Tabela 4.6: Os 20 vértices com os maiores graus de saída. Vértice Grau de Saída Sítio fotoblog.uol.com.br aonde.com.br jotabegeme.dihitt.com.br sao-jose-estado-de-sergipe.somanuncios.com.br

49 4.1. RESULTADOS DO GRAFO.BR 49 Tabela 4.7: Dados estatísticos das distâncias. Métrica Menor Maior Média Mediana COV Distâncias ,66 7 1,24 ou seja, o diâmetro do grafo. A Tabela 4.7 apresenta dados estatísticos das distâncias de forma detalhada. Destes dados é possível notar que a distância média percorrida no grafo é 7,66, um valor que enquadra o grafo no fenômeno small-world descrito na Seção 2.1. Os valores próximos entre média e mediana apresentam a distribuição dos dados de distâncias de maneira aproximadamente simétrica, bem como o baixo coeciente de variação indica a pouca variabilidade nos valores da amostra. Por m, a última métrica executada no grafo.br foi a descoberta dos componentes fortemente conectados (CFC). Como resultado da métrica foram obtidos CFCs. Os componentes com suas dimensões estão detalhados da Tabela 4.8. Dentre eles, o maior CFC descoberto contém a quantidade de vértices na casa dos milhares, 21 CFCs possuem vértices na casa das dezenas e CFCs possuem a quantidade de vértices na casa das unidades. Os resultados desta métrica também revelam outra característica no grafo da Web brasileira, como encontrado na literatura. De acordo com os estudos apresentados na Seção 2.3, no grafo da Web é encontrado um grande componente fortemente conetado e vários outros com um pequeno número de vértices [Broder et al. 2000] [Modesto et al. 2005] [Donato et al. 2007]. Além das métricas executadas no grafo.br, cujos resultados auxiliam a análise da conectividade da Web brasileira, no grafo também foram separados os vértices por domínios para obter suas porcentagens. Esta tarefa reduziu o número de elementos que serão comparados com dados divulgados pelo Registro.br [Registro.br 2013]. A extração dos domínios reduziu os sítios do grafo a domínios distintos, esta redução ocorre devido a remoção dos subsítios que são considerados vértices no grafo. As porcentagens e número de sítios dos principais domínios são exibidas na Tabela 4.9. Os dados apresentam que a coleta utilizada nesse estudo contém 7,47% de todos domínios registrados no Brasil, uma porcentagem considerável. Entretanto, esta porcentagem seria maior se consideramos que parte dos domínios são registrados apenas para guardar seu nome e não têm páginas com grande atividade na Web ou então apenas o mantém para respostas de DNS. Os dados

50 4.1. RESULTADOS DO GRAFO.BR 50 Tabela 4.8: Quantidade de componentes fortemente conectados no grafo.br. Número de vértices no CFC Quantidade de CFC Tabela 4.9: Dados de domínios por DPN. DPN Registro.br Descobertos % N o % N o % Descobertos/Registro.br.com.br 91,14% ,40% ,17%.net.br 3,00% ,48% ,22%.org.br 1,42% ,15% ,06%.blog.br 0,23% ,20% 528 6,91%.edu.br 0,07% ,33% ,37%.gov.br 0,04% ,25% ,88% Demais domínios 4,1% ,19% ,24% Total 100% % ,47% também apresentam que as porcentagens entre os Domínios de Primeiro Nível (DNPs) se mostram não idênticas mas compatíveis, mesmo nossos dados sendo apenas uma amostra do total de domínios. O domínio.com.br apresenta a maioria dos sítios, seguido pelos demais com valores inferiores. Um fato identicado em nosso estudo é que os DPNs.org.br,.edu.br e.gov.br apresentaram as maiores porcentagens de domínios descobertos em relação ao total registrado, se compararmos com os demais DPNs.

51 4.1. RESULTADOS DO GRAFO.BR 51 Tabela 4.10: Dados estatísticos sobre os graus do CFC do grafo.br. Métrica Menor Maior Média Mediana COV Grau de entrada ,06 2 3,33 Grau de saída ,06 2 4, Maior Componente Fortemente Conectado do Grafo.br A descoberta de um grande CFC e outros com tamanho reduzido já era esperado, uma vez que essa característica é comum no grafo da Web e muito encontrada na literatura [Broder et al. 2000] [Modesto et al. 2005]. A partir dos métodos utilizados para descobrir os CFCs, o maior componente foi extraído e transformado em um grafo a parte para ser analisado. O subgrafo extraído do grafo principal possui vértices e arcos. As análises tiveram início pelo estudo dos graus, em que foram realizados cálculos estatísticos dos mesmos. Os dados podem ser visualizados na Tabela O maior grau de entrada e o maior grau de saída apresentados na Tabela pertencem ao sítio fotoblog.uol.com.br. Em comparação com o grafo completo, o sítio citado também é o vértice de maior grau de entrada, e diminui em dois o seu valor dentro do CFC, o que indica que dois sítios que se conectam ao fotoblog.uol.com.br estão ausentes no CFC. Este CFC também apresentou os maiores graus médios, o que congura esse CFC como o grafo mais conectado estudado nesta dissertação. Diferentemente do grau de entrada, uma grande redução aconteceu no maior grau de saída (de no grafo completo para 3.622). Os menores graus tanto de entrada quanto de saída são 1, isto ocorre devido a uma das regras que conguram um componente como fortemente conectado, a saber, cada vértice deve ter no mínimo uma conexão de entrada e uma conexão de saída. O valor da média dos graus mais que triplicou comparado a média dos graus do grafo completo. Este aumento ocorreu devido a inexistência de vértices com grau zero na amostra da qual foi calculada a média. A amostra dos dados dos graus ainda se mostra assimétrica devido ao baixo valor da mediana comparado à média. Os valores relativamente baixos dos coecientes de variação dos graus de entrada e de saída em relação aos valores do grafo completo indicam que há menor variação nos valores dos graus na amostra do qual foi calculado. A Figura 4.5 apresenta um gráco com os graus de entrada em contraste com os graus de saída. Desta gura visualiza-se que há variabilidade similar entre os graus de entrada

52 4.1. RESULTADOS DO GRAFO.BR 52 Figura 4.5: Graus do maior CFC do grafo.br. (a) Graus de entrada (b) Graus de saída Figura 4.6: Rank dos graus do CFC do grafo.br. e saída de um vértice ainda maior que do grafo completo. Também é possível notar que a quantidade de vértices com alto grau de saída e baixo de entrada é quase simétrica à quantidade de vértices com alto grau de entrada e baixo grau de saída. Para melhor visualizar os valores dos graus, as Figuras 4.6(a) e 4.6(b) apresentam respectivamente o ranking dos graus de entrada e dos graus de saída ordenados em ordem decrescente. A métrica seguinte calculada, a frequência dos graus, conrma fato anteriormente descrito sobre a similaridade dos graus de entrada e saída. A Figura 4.7 apresenta um gráco,

53 4.1. RESULTADOS DO GRAFO.BR 53 Figura 4.7: Frequência dos graus do maior CFC. (a) Graus de entrada (b) Graus de saída Figura 4.8: Ajuste dos graus do maior CFC do grafo.br. com os eixos em escala logarítmica, das frequências dos graus de entrada e saída. O gráco mostra que as frequências são bastante próximas. Os ajustes feitos nos grácos das Figuras 4.8(a) e 4.8(b) justicam esta proximidade do qual foi encontrado o exponente 1,76 para o grau de entrada e 1,73 para o grau de saída. Por m, a última métrica executada foi a distância entre vértices que tem seus dados estatísticos apresentados detalhadamente na Tabela O cálculo retornou que todos os vértices do CFC podem ser alcançados com até 25 passos, ou seja, o diâmetro do componente. Este valor representa um a menos que o diâmetro do grafo completo, mostrando

54 4.1. RESULTADOS DO GRAFO.BR 54 Tabela 4.11: Dados estatísticos das distâncias do CFC. Métrica Menor Maior Média Mediana COV Distâncias ,21 7 1,28 como o CFC tem a dimensão em termos estruturais bem próximo ao grafo completo. Com base na distância média encontrada, um valor em torno de 6, neste CFC também foi identicado o fenômeno small-world. Os dados de distância também se mostraram simétricos, devido a proximidade dos valores da média e mediana, e também o baixo coeciente de variação Análise do Grafo.br via Pajek Após a obtenção dos resultados nos experimentos anteriores, fez-se necessário validar os resultados do algoritmo desenvolvido para análises. Para validar estes resultados foi utilizado o Pajek (palavra eslovena para Aranha), um programa da plataforma Windows para análise, criação e visualização de grandes redes. Ele está disponível gratuitamente, para uso não comercial, no endereço Web (http://pajek.imfm.si/doku.php?id=download). Como descrito na Seção 3.2, inicialmente foi necessário uma adequação do grafo para servir como entrada para o Pajek. Ao dar início às análises, a primeira métrica calculada foi os graus de entrada. Para isto é necessária a criação de uma partição para destacar os graus de entrada dos vértices. A Figura 4.9 apresenta os vértices com os vinte maiores graus de entrada, que conferem exatamente com os resultados obtidos em nosso algoritmo, exibido na Tabela 4.5. A mesma exatidão foi encontrada nos graus de saída dos vértices. A Figura 4.10 exibe os vinte vértices com os maiores graus de saída encontrados no Pajek. Podemos notar que todos os campos são exatamente equivalentes aos da Tabela 4.6, que foi gerada pelo nosso algoritmo. Pelo Pajek também foi possível criar uma partição que realizasse a descoberta dos componentes fortemente conectados. Os mesmos CFCs foram encontrados no Pajek, assim como nas execuções de nosso algoritmo. A Figura 4.11 apresenta os CFCs com pelo menos dez vértices, exceto o cluster 0 que contém os vértices que não pertencem a nenhum CFC. Os mesmos valores podem ser encontrados na Tabela 4.8, gerada com os resultados de nosso algoritmo, conrmando novamente delidade de nossos resultados. No

55 4.1. RESULTADOS DO GRAFO.BR 55 Figura 4.9: Graus de entrada do grafo.br no Pajek. Figura 4.10: Graus de saída do grafo.br no Pajek. Pajek também foi calculada a distância entre todos os pares de vértices. A partir desta métrica foi identicado o valor 26 para o diâmetro do grafo e a distância média de 7,66, exatamente os mesmos valores encontrados em nosso algoritmo. Além da validação dos resultados dos experimentos, o Pajek também foi utilizado para identicar a estrutura topológica do grafo em estudo. Assim como descrito na literatura, o Pajek encontrou uma estrutura que se assemelha a uma gravata borboleta cujas dimensões dos conjuntos podem ser visualizadas na Tabela Os dados da Tabela mostram que o componente OUT é o maior e o único que não se conecta a nenhum outro componente.

56 4.1. RESULTADOS DO GRAFO.BR 56 Figura 4.11: Componentes fortemente conectados do grafo.br no Pajek. Tabela 4.12: Dimensões do modelo da gravata no grafo.br. Componente Grafo.br N o de Vértices Percentual SCC ,98% IN ,47% OUT ,90% TUBOS ,95% TENTÁCULOS ,28% DESCONECTADOS 835 0,16% Este fato, do ponto de vista da rede, ao se percorrer o grafo da Web, assim que este componente for alcançado, em algum momento a navegação será interrompida por falta de caminhos a serem percorridos. Outro fato que chamou a atenção foi a quantidade de vértices em TENTÁCULOS, que são do ponto de vista da navegação da rede, caminhos que não se conectam a nenhum outro componente da rede. Ou seja, em certo ponto a navegação também será interrompida por falta de caminhos a serem percorridos, o mesmo princípio do componente OUT. O Pajek foi também utilizado para calcular o betweenness. Está avaliação retornou que o vértice que possui o maior valor de betweenness é o sítio com o valor 0,0102. A Figura 4.12 apresenta os vinte vértices com os maiores valores de betweenness. Os baixos valores apresentados na gura indicam poucas quantidades de caminhos que passam pelos vértices, o que novamente sugere a Web como uma rede pouco conectada. Um fato identicado ao analisar a gura é que muitos dos vértices apresentados

57 4.1. RESULTADOS DO GRAFO.BR 57 Figura 4.12: Os 20 vértices com os maiores valores de betweenness no grafo.br. nela também estão contidos nas listas dos 20 vértices com maiores graus. Mais especicamente o sítio fotoblog.uol.com.br está contido nas listas de maiores graus de entrada e de saída. Os sítios maps.google.com.br, pagseguro.uol.com.br, onsoftware.softonic.com.br e cifraclub.terra.com.br estão contidos apenas na lista dos vértices dos maiores graus de entrada. Os sítios e aonde.com.br estão contidos apenas na lista dos vértices com os maiores graus de saída. Ao m dos experimentos do grafo.br no Pajek foi calculado o coeciente de agrupamento. Como resultado esta métrica apresentou que, dos vértices existentes no grafo, apenas vértices possuem o coeciente de agrupamento de valor 1, ou seja, existem vértices no grafo em que todos os vizinhos adjacentes de cada vértice estão conectados entre si. Esta métrica ainda resultou no coeciente de agrupamento médio do grafo, que é representado pelo valor 0,0921. Este baixo valor indica que, em geral, os vizinhos adjacentes de cada vértice estão pouco conectados entre si, o que contraria a armação de [Boccaletti et al. 2006], que descreve a Web como uma rede com elevado coeciente de agrupamento Resultados do HTTrack Como descrito na Seção 3.3, um dos objetivos desse estudo foi vericar se uma coleta feita pelo Heritrix pode ser considerada representativa em relação à conectividade do grafo coletado. A partir disso foram coletados no HTTrack os sítios contidos em dois dos com-

58 4.1. RESULTADOS DO GRAFO.BR 58 (a) Heritrix (b) HTTrack Figura 4.13: Universos de 5 vértices. ponentes fortemente conectados existentes no grafo.br. Por o HTTrack ser um software que consome muitos recursos de rede e armazenamento, os CFCs escolhidos para a coleta possuem uma pequena quantidade de vértices, mais precisamente 5 e 69 vértices. Dos grafos modelados a partir das coletas do HTTrack foram calculadas as métricas de graus de saída e componentes fortemente conectados. Destes dois CFCs foram também observadas as conexões dos vértices para fora do componente a m de se avaliar se uma coleta do Heritrix se aproxima da quantidade de hyperlinks coletados no HTTrack. Os estudos dessa etapa dos experimentos começaram pela identicação do universo que estão contidos os cinco vértices da Tabela 3.8. Como universo, denimos o conjunto de todas as conexões dentro do CFC e também o primeiro nível de conexões de saída dos vértices para fora do componente. Neste universo de 5 vértices do grafo gerado da coleta da Heritrix foram encontrados 18 arcos como mostra a Figura 4.13(a). No mesmo universo da coleta do HTTrack foram encontrados 120 arcos que podem ser visualizados na Figura 4.13(b). Os dados apresentados dão os primeiros indícios de quão completa é uma coleta do HTTrack e também é possível notar o surgimento da árvore geradora mínima na Figura 4.13(a), que é uma das características do processo de crawling adotado na coleta de dados da Web. Para comparar os dois subgrafos foram calculados os graus de saída e exibidos na Tabela

59 4.1. RESULTADOS DO GRAFO.BR 59 Tabela 4.13: Comparação dos graus de saída dos subgrafos de 5 vértices. Vértice Grau de saída Heritrix Grau de saída HTTrack Os dados apresentados na Tabela para o universo dos 5 sítios, gerado da coleta do HTTrack, mostram uma quantidade maior de conexões na nova coleta do que o universo do Heritrix. O último cálculo realizado neste subgrafo foi a descoberta do componente fortemente conectado para vericar a semelhança entre os componentes. O componente originado da coleta do Heritrix possui oito arcos e sua topologia se assemelha a uma estrela, em que existe um vértice centralizado que possui conexão para os demais e os demais se conectam a ele, como exibido na Figura 4.14(a). O componente fortemente conectado encontrado a partir dos dados do HTTrack possui 12 arcos. Esta diferença de quatro arcos a mais comparado ao anterior são os arcos que conectam os vértices que não são o centro da estrela como mostra a Figura 4.14(b). A primeira etapa deste estudo com a coleta do HTTrack conrmou o já esperado, coletas por crawling não coletam boa parte dos links contidos nas páginas. Neste primeiro caso a maioria dos links não coletados se direcionam para fora do componente. Ao término dos estudos do CFC de cinco vértices foram iniciadas as análises com o subgrafo montado a partir dos 69 vértices apresentados na Tabela 3.9. Os arcos extraídos do grafo.br que tem como vértice de origem algum dos 69 vértices, formaram um universo que possui 196 arcos que se conectam conforme mostra a Figura 4.15(a). No entanto, o grafo dos mesmos 69 vértices encontrados a partir da modelagem dos dados do HTTrack possui 548 arcos, um valor quase triplicado ao se comparar com os dados gerados pelo Heritrix. Este grafo é exibido na Figura 4.15(b). Os vértices em destaque nas guras que apresentam os universos com 5 vértices e também com 69 vértices representam os CFCs contidos nos mesmos. O cálculo dos graus de saída dão um segundo indício de quão mais completa é uma coleta por HTTrack pela quantidade maior de conexões de saída de seus vértices. A Tabela

60 4.1. RESULTADOS DO GRAFO.BR 60 (a) Heritrix (b) HTTrack Figura 4.14: CFCs de 5 vértices. (a) Heritrix (b) HTTrack Figura 4.15: Universos de 69 vértices apresenta os vértices com os maiores graus de saída. Nesta Tabela se destacam os graus do subgrafo do Heritrix, em que apenas um vértice apresenta o grau diferente de um. A terceira comparação realizada em relação aos subgrafos gerados a partir dos 69 vértices é a identicação dos componentes fortemente conectados nos mesmos. Após o cálculo da métrica foi identicado um CFC com os 69 vértices e 136 arcos contido no universo dos 69 vértices gerado da coleta do Heritrix. Assim como no CFC de 5 vértices gerados do Heritrix, este também apresenta um formato estrela como exibido na Figura

61 4.1. RESULTADOS DO GRAFO.BR 61 Tabela 4.14: Os 20 vértices com os maiores graus de saída dos subgrafos de 69 vértices. Vértice Grau de saída Heritrix Grau de saída HTTrack (a). A identicação do componente fortemente conectado a partir dos dados gerados pelo HTTrack apresentou resultados que contrariaram a tendência de que os dados do HTTrack são mais completos em relação a conectividade. O CFC encontrado possui 60 vértices e 119 arcos exibidos na Figura 4.16(b), dos estudos realizados nesta comparação é a única vez que os dados do Heritrix se mostraram mais completos. Entretanto, foi realizada uma pesquisa para descobrir o motivo pelo qual o CFC do HTTrack possui dimensões menores que o CFC do Heritrix. Do ponto de vista da Web, foram buscadas as conexões entre os sítios que estavam contidas no CFC do Heritrix e não se encontravam no CFC do HTTrack. Após esta identicação foi constatado que algumas conexões não existiam mais e um sítio estava desativado. As demais conexões em falta no CFC ainda existiam no grafo, mas não se enquadravam mais ao CFC por não existir um caminho direcionado nas duas direções entre os vértices que as conectam. A Tabela 4.15 apresenta as conexões contidas no CFC do Heritrix mas inexistentes do CFC do HTTrack. Neste estudo, envolvendo a comparação dos dados do Heritrix e HTTrack, tam-

62 4.1. RESULTADOS DO GRAFO.BR 62 (a) Heritrix (b) HTTrack Figura 4.16: CFCs de 69 vértices. Tabela 4.15: Conexões inexistentes no CFC do HTTrack. Conexão Motivo Não existe o link Não existe o link Não existe o link Sítio não existe mais Não existe o link Não existe o link Não existe o link Link existe mas está fora do CFC Link existe mas está fora do CFC Link existe mas está fora do CFC Link existe mas está fora do CFC Não existe o link Link existe mas está fora do CFC Link existe mas está fora do CFC Não existe o link Link existe mas está fora do CFC Link existe mas está fora do CFC Não existe o link bém foram pesquisadas possíveis conexões que estivessem contidas apenas no CFC do HTTrack. Foi descoberto nesta pesquisa que o CFC do HTTrack possui uma única conexão que é inexistente no CFC do Heritrix. Foi encontrado um hyperlink no sítio que direcionava a navegação para o sítio A conclusão desta etapa dos experimentos de comparação entre os componentes coletados pelo Heritrix e HTTrack apresentou os universos coletados pelo HTTrack com um número maior de conexões. Apesar da diminuição para 60 vértices do componente fortemente conectado descoberto no universo dos 69 vértices do HTTrack, esta pode ser explicada como sendo uma mudança na Web. Em geral, como já descrito o HTTrack coletou um número maior de links nas páginas em que ele visitou, porém a coleta do Heritrix

63 4.2. RESULTADOS DO GRAFO.GOV.BR 63 Tabela 4.16: Dados da modelagem do grafo.gov.br. Dimensões Grafo.gov.br Vértices Arcos Únicos Laços Sementes 892 Arcos Repetidos Total de Arcos se apresentou mais completa que o esperado. 4.2 Resultados do Grafo.gov.br A etapa corrente deste documento apresenta os resultados obtidos nos estudos cujo objetivo é descobrir a conectividade e a estrutura topológica da Web.gov.br. Estes estudos foram realizados em um grafo modelado do arquivo de registros de coleta do crawler Heritrix, conforme descrito detalhadamente na Seção 3.1. Após nalizada a modelagem, foi descoberto o total de arcos coletados pelo Heritrix a partir de 892 URLs sementes. Destes arcos, são links para o mesmo sítio, ou seja, os laços, estes que representam 99,14% da conexões coletadas pelo Heritrix. Os vinte sítios com as maiores quantidade de laços são exibidos na Tabela A quantidade de arcos repetidos descobertos totaliza arcos, nalizando assim o grafo com um total de vértices e arcos únicos. Assim como no estudo da Web.br, a Web.gov.br apresentou ser uma rede pouco conectada devido à baixa quantidade de conexões entre sítios distintos. De todos os arcos encontrados somente (únicos e repetidos) são entre vértices distintos, que representa 0,86% do total de conexões coletadas, um valor muito baixo. Os valores obtidos na modelagem do grafo.gov.br estão detalhados na Tabela Após o processo de modelagem do grafo.gov.br também foram contabilizados os arcos descobertos na coleta que mais se repetiram, como exibido na Tabela Assim como no grafo.br a maioria dos arcos são entre subsítios de um mesmo sítio. O trabalho de análise teve início estudando o grafo dirigido modelado que possui vértices e arestas dirigidas. Deste gráco foram calculadas as métricas graus de entrada e graus de saída, frequência dos graus de entrada e saída, distâncias entre vértices e componentes fortemente conectados.

64 4.2. RESULTADOS DO GRAFO.GOV.BR 64 Tabela 4.17: Os 20 vértices com mais laços. Vértice Quantidade de laços cidade.jundiai.sp.gov.br ww1.alesc.sc.gov.br portal1.trtrio.gov.br: portal.trtrio.gov.br: transparencia.gov.br celepar7cta.pr.gov.br portal2.trtrio.gov.br: participatorio.juventude.gov.br Tabela 4.18: Os 20 arcos com mais repetições no grafo.gov.br. Arcos N o de repetições sis2.funasa.gov.br sis.funasa.gov.br educadores.diaadia.pr.gov.br www4.planalto.gov.br static.paraiba.pb.gov.br consulta.almg.gov.br mediaserver.almg.gov.br download.rj.gov.br www1.saude.ba.gov.br cnes.datasus.gov.br alvaraja.rio.rj.gov.br cade.gov.br cmbhweb.cmbh.mg.gov.br saladeimprensa.ibge.gov.br rep.creci-sc.gov.br asms.londrina.pr.gov.br mediaserver.almg.gov.br

65 4.2. RESULTADOS DO GRAFO.GOV.BR 65 Tabela 4.19: Dados estatísticos sobre os graus do grafo.gov.br. Métrica Menor Maior Média Mediana COV Grau de entrada ,32 1 3,39 Grau de saída ,32 0 5,16 Iniciando os estudos dos graus do grafo.gov.br, foram calculados os dados estatísticos exibidos na Tabela Os dados apresentam o maior grau de entrada que pertence ao sítio e também o maior grau de saída, que pertence ao sítio Os menores graus encontrados do grafo apresentam o valor zero, tanto para entrada quanto para saída. O valor baixo dos graus médios indica a baixa conectividade do grafo. Os dados dos graus de entrada apresentam maior simetria por ser a mediana mais próxima da média e menor variabilidade por ter menor coeciente de variação comparados aos graus de saída. A Figura 4.17 apresenta um gráco com os eixos em escala logarítmica em que os graus de entrada são contrastados com os graus de saída. Neste gráco a distribuição dos pontos é semelhante aos grácos dos estudos anteriores, onde existem vértices que possuem valores altos para graus de entrada e saída. Também são identicados vértices que possuem alto grau de entrada e baixo grau de saída, bem como vértices com alto grau de saída e baixo grau de entrada. Vale lembrar que, em todos os grácos com os eixos em escala logarítmica do estudo, os vértices que possuem grau zero foram substituídos por 0,1 para serem visualizados. Os graus dos vértices também foram separados por ranking para a visualização de seus valores em ordem decrescente, como mostram as Figuras 4.18(a) e 4.18(b) que apresentam respectivamente o ranking dos graus de entrada e o ranking dos graus de saída. A partir da métrica dos graus também foi possível identicar os sítios que possuem maiores graus de entrada e graus de saída, apresentados respectivamente nas Tabelas 4.20 e A métrica seguinte calculada foi a frequência dos graus de entrada e de saída. A Figura 4.19 apresenta um gráco com os eixos em escala logarítmica com as frequências dos graus. Deste é possível visualizar a maior incidência de graus com valores baixos e depois um decaimento como uma lei de potência, com exceção do grau de entrada zero. Este fato

66 4.2. RESULTADOS DO GRAFO.GOV.BR 66 Tabela 4.20: Os 20 vértices com os maiores graus de entrada do grafo.gov.br. Vértice Grau de Entrada Sítio portal.mec.gov.br www2.camara.gov.br portal.saude.gov.br portal.mj.gov.br www6.senado.gov.br Tabela 4.21: Os 20 vértices com os maiores graus de saída do grafo.gov.br. Vértice Grau de Saída Sítio dominios.governoeletronico.gov.br portaldoprofessor.mec.gov.br www1.saude.ba.gov.br www2.cultura.gov.br portal.saude.gov.br

67 4.2. RESULTADOS DO GRAFO.GOV.BR 67 Figura 4.17: Graus do grafo. (a) Graus de entrada (b) Graus de saída Figura 4.18: Ranking dos graus do grafo.gov.br. também ocorreu nos grafos estudados anteriormente. A partir da frequência apresentada no gráco foram realizados ajustes para se obter o expoente das leis de potência. Para a distribuição dos graus de entrada foi encontrado o expoente 2,28 mostrado no gráco da Figura 4.20(a), para a distribuição dos graus de saída foi encontrado o expoente 1,72 exibido na Figura 4.20(b). A métrica seguinte a ser calculada foi as distâncias entre os vértices. Desta métrica foi encontrada a distância média 5,91, valor que enquadra a rede da Web governamental

68 4.2. RESULTADOS DO GRAFO.GOV.BR 68 Figura 4.19: Frequência dos graus de entrada e de saída do grafo.gov.br. (a) Graus de entrada (b) Graus de saída Figura 4.20: Ajuste dos graus do grafo.gov.br. brasileira no fenômeno small-world. No cálculo também foi encontrada a maior distância que pode ser percorrida entre dois vértices, valor igual a 19, que representa o diâmetro do grafo. O diâmetro 19 é um valor alto para um grafo de tais dimensões, este valor indica a baixa conectividade da rede. Como ocorrido nos resultados dos outros grafos, os dados de distância são simétricos como mostra a proximidade entre média e mediana e também pelo baixo coeciente de variação. Dados estatísticos das distâncias são exibidos detalhadamente na Tabela 4.22.

69 4.2. RESULTADOS DO GRAFO.GOV.BR 69 Tabela 4.22: Dados estatísticos das distâncias do grafo.gov.br. Métrica Menor Maior Média Mediana COV Distâncias ,91 6 1,16 Tabela 4.23: Quantidade de CFC no grafo.gov.br. Número de vértices no CFC Quantidade de CFC A última métrica calculada no grafo gerado a partir da Web.gov.br foi a descoberta de componentes fortemente conectados. Esta métrica resultou na descoberta de 200 CFCs no grafo, que possuem as dimensões mostradas na Tabela Mais uma vez os resultados obtidos se assemelham com uma característica da Web encontrada na literatura que descreve a grande fragmentação de componentes dentro do grafo da Web [Broder et al. 2000]. Destes componentes, é encontrado um grande componente fortemente conectado e uma grande quantidade de CFCs com as dimensões bastante reduzidas Maior Componente Fortemente Conectado do Grafo.gov.br Após a análise do grafo completo foi realizada a execução das mesmas métricas no maior componente fortemente conectado encontrado no grafo. Este CFC possui um total de vértices e arestas dirigidas e foi inteiramente extraído do grafo completo para análises à parte. Iniciando os estudos sobre os graus, foram gerados dados estatísticos sobre os mesmos, exibidos na Tabela Comparando-se esses resultados aos equivalentes do grafo.gov.br, o valor da média mais que dobrou, este fato apresenta apresenta o CFC como um grafo mais conectado que o grafo completo. Um dos fatores que inuenciaram este resultado é a não existência da grandes quantidades de vértices com grau zero, tanto para entrada quanto para saída, no CFC. O coeciente de variação também apresentou valor reduzido comparado ao grafo completo, os valores encontrados indicam menor variação entre os graus dos vértices.

70 4.2. RESULTADOS DO GRAFO.GOV.BR 70 Tabela 4.24: Dados estatísticos sobre os graus maior do CFC do grafo.gov.br. Métrica Menor Maior Média Mediana COV Grau de entrada ,44 1 2,96 Grau de saída ,44 2 2,29 Figura 4.21: Graus do maior CFC do grafo.gov.br. Deste subgrafo, também nos estudos dos graus de entrada e saída, foi apresentado o gráco com os eixos em escala logarítmica na Figura 4.21, em que os graus de entrada estão em contraste com os graus de saída dos vértice. Deste gráco nota-se a mesma distribuição dos pontos encontrada nos grafos completos.gov.br e.br. Os graus dos vértices também foram separados por ranking para a visualização de seus valores em ordem decrescente, como mostram as Figuras 4.22(a) e 4.22(b) que apresentam respectivamente o ranking dos graus de entrada e o ranking dos graus de saída. Em seguida, destes graus foram calculadas suas frequências e exibidas na Figura É possível visualizar a maior incidência de graus com valores baixos e depois um decaimento como uma lei de potência, assim como em todos os experimentos anteriores dessa dissertação. No entanto, para a identicação do expoente das leis de potência foram realizados ajustes nos pontos do gráco. A Figura 4.24(a) apresenta o ajuste dos graus de entrada do qual foi descoberto o valor 2,01 para o expoente. A Figura 4.24(b) apresenta

71 4.2. RESULTADOS DO GRAFO.GOV.BR 71 (a) Graus de entrada (b) Graus de saída Figura 4.22: Ranking dos graus do CFC do grafo.gov.br. Figura 4.23: Frequência dos graus do CFC do grafo.gov.br. o ajuste dos graus de entrada com o expoente 1,79. Um fato observado no estudo é que em todos os cálculos de graus, a distribuição probabilística destes graus apresentaram uma lei de potência com expoentes maiores nos graus de entrada que nos graus de saída, em geral isso indica que existem mais vértices com graus de saída elevados do que com graus de entrada elevados. Por m, calculamos as distâncias entre quaisquer dois vértices do subgrafo em estudo. Os dados descobertos são exibidos na Tabela Comparando-as aos dados de distâncias

72 4.2. RESULTADOS DO GRAFO.GOV.BR 72 (a) Graus de entrada (b) Graus de saída Figura 4.24: Ajuste dos graus do maior CFC do grafo.gov.br. Tabela 4.25: Dados estatísticos das distâncias no maior CFC do grafo.gov.br. Métrica Menor Maior Média Mediana COV Distâncias ,51 5 1,09 obtidas para o grafo.gov.br, os dados mostram pouca diferença, apenas uma redução de 2 no valor do diâmetro e uma pequena redução na média. A pequena diferença encontrada nos valores da média e do diâmetro sugere que este maior CFC abrange a maior parte do grafo e que o restante do grafo está desconexo de um grande núcleo ou não é alcançável Análise do Grafo.gov.br via Pajek Após a obtenção dos resultados nos experimentos anteriores, também foi necessário validar os resultados obtidos para as métricas do grafo.gov.br. Para validar estes resultados, novamente foi utilizado o software Pajek. Como descrito na Seção 3.2, foi criada uma network de nosso grafo para ser a base dos estudos no Pajek. Ao dar início às análises, a primeira métrica calculada foi a dos graus de entrada. Para isto é necessária a criação de uma partição para destacar os graus de entrada dos vértices. A Figura 4.25 apresenta os vértices com os vinte maiores graus de entrada, que conferem exatamente com os resultados obtidos em nosso algoritmo, exibidos na Tabela A mesma exatidão foi encontrada nos graus de saída dos vértices. A Figura 4.26 exibe os vinte vértices com os maiores graus de saída encontrados no Pajek. Desta gura é possível notar que as colunas Vertex, Cluster e Id são exatamente equivalentes as colunas Vértice, Graus de saída e Sítio da Tabela 4.21, que foi gerada pelo nosso algoritmo.

73 4.2. RESULTADOS DO GRAFO.GOV.BR 73 Figura 4.25: Graus de entrada do grafo.gov.br no Pajek. Figura 4.26: Graus de saída do grafo.gov.br no Pajek. Pelo Pajek também foi criada uma partição para destacar os clusters que indicam os componentes fortemente conectados encontrados. Os mesmos 200 CFCs foram encontrados no Pajek, assim como nas execuções de nosso algoritmo. A Figura 4.27 apresenta os CFCs com pelo menos quatro vértices. Todos componentes exibidos na gura são fortemente conectados, exceto o representado pelo cluster 0, que são os vértices que não pertencem a nenhum CFC. Ao realizar uma comparação, as quantidades de vértices da coluna Freq da gura são exatamente equivalentes à coluna Número de Vértices no CFC

74 4.2. RESULTADOS DO GRAFO.GOV.BR 74 Figura 4.27: Componentes fortemente conectados do grafo.gov.br no Pajek. Tabela 4.26: Dimensões do modelo da gravata no grafo.gov.br. Componente Grafo.gov.br Quant. Vértices % do Total SCC ,8094% IN 623 3,1911% OUT ,4408% TUBOS 63 0,3227% TENTÁCULOS 761 3,8980% DESCONECTADOS 66 0,3381% da Tabela 4.23, o que mais uma vez conrma a delidade dos nossos resultados. No Pajek também foi calculada a distância entre quaisquer dois vértices. Desta métrica foi identicado o valor 19 para o diâmetro do grafo e distância média de 5,91, exatamente os mesmos valores encontrados em nosso algoritmo. Assim como nos experimentos do grafo.br, o Pajek também foi utilizado para identicar a estrutura topológica do grafo.gov.br. Para este grafo também foi encontrada a estrutura que se assemelha a uma gravata borboleta e as dimensões dos conjuntos podem ser visualizadas na Tabela Os dados da Tabela mostram que o componente OUT é o maior e o único que não se conecta a nenhum outro componente. Este fato, do ponto de vista da rede, ao se percorrer o grafo da Web, assim que este componente for alcançado em algum momento a navegação será interrompida por falta de caminhos a serem percorridos. O Pajek foi utilizado também para calcular a métrica o betweenness do grafo.gov.br. O cálculo desta métrica veio por meio da criação de um vetor que armazena o resultado para cada vértice. A Figura 4.28 apresenta os vinte vértices com os maiores valores de betweenness. O sítio com o maior valor apresentado se trata do portaldoprofessor.mec.gov.br com o betweenness 0,0363. Os baixos valores desta métrica, juntamente com o alto valor do diâmetro do grafo.gov.br, sugerem que o grafo possui pouca variedade de caminhos a serem percorridos. Assim como ocorre no grafo.br, muitos dos vértices que possuem

75 4.2. RESULTADOS DO GRAFO.GOV.BR 75 Figura 4.28: Os 20 vértices com os maiores valores de betweenness no grafo.gov.br. os maiores betweenness também possuem um grande valor nos graus. Mais especicamente os sítios portal.saude.gov.br e estão entre os vinte vértices com os maiores graus de entrada e graus de saída. Os sítios portal.mec.gov.br, e portal.mj.gov.br estão apenas entre os vinte vértices com os maiores graus de entrada. Os sítios portaldoprofessor.mec.gov.br, e estão apenas entre os vinte vértices com os maiores graus de saída. Ao m dos experimentos do grafo.gov.br no Pajek, foi calculado o coeciente de agrupamento. Como resultado esta métrica apresentou que dos vértices existentes no grafo, apenas 364 vértices possuem o coeciente de agrupamento de valor 1, ou seja, existem 364 vértices no grafo em que todos os vizinhos adjacentes de cada vértice estão conectados entre si. Esta métrica ainda resultou no coeciente de agrupamento médio do grafo, que é representado pelo valor 0,1530. Este baixo valor indica que de forma geral os vizinhos adjacentes de cada vértice estão pouco conectados entre si, porém, ainda é superior aos 0,0921 encontrados no grafo.br O Censo da Web Governamental Brasileira A presente seção deste capítulo de resultados, assim como a Seção 4.1.3, apresenta estudos realizados para validar os dados obtidos na coleta do Heritrix. Porém, desta vez não

Redes de Computadores. Camada de Aplicação Teoria de Redes Complexas: Conceitos Básicos em Grafos

Redes de Computadores. Camada de Aplicação Teoria de Redes Complexas: Conceitos Básicos em Grafos Redes de Computadores Camada de Aplicação Teoria de Redes Complexas: Conceitos Básicos em Grafos Introdução Como as coisas estão conectadas? Redes! A network is a set of vertices or nodes provided with

Leia mais

RANKING NACIONAL DO TRABALHO INFANTIL (5 a 17 ANOS) QUADRO COMPARATIVO DOS DADOS DA PNAD (2008 e 2009)

RANKING NACIONAL DO TRABALHO INFANTIL (5 a 17 ANOS) QUADRO COMPARATIVO DOS DADOS DA PNAD (2008 e 2009) NACIONAL DO TRABALHO INFANTIL (5 a 17 ANOS) QUADRO COMPARATIVO DOS DADOS DA PNAD (2008 e 2009) População Ocupada 5 a 17 anos 2008 Taxa de Ocupação 2008 Posição no Ranking 2008 População Ocupada 5 a 17

Leia mais

FLUXO ATIVIDADES DOS SERVIÇOS DE TECNOLOGIA DA INFORMAÇÃO, POR UNIDADE DA FEDERAÇÃO NO ESTADO DA PARAÍBA 2009

FLUXO ATIVIDADES DOS SERVIÇOS DE TECNOLOGIA DA INFORMAÇÃO, POR UNIDADE DA FEDERAÇÃO NO ESTADO DA PARAÍBA 2009 FLUXO ATIVIDADES DOS DE TECNOLOGIA DA INFORMAÇÃO, POR UNIDADE DA FEDERAÇÃO NO ESTADO DA PARAÍBA 2009 Entradas e Saídas de Mercadorias Base 2009 FLUXO, POR UNIDADE DA FEDERAÇÃO NO ESTADO DA PARAÍBA - 2009

Leia mais

NÚMERO DE ACIDENTES POR DIA DA SEMANA

NÚMERO DE ACIDENTES POR DIA DA SEMANA RODOVIÁRIAS Quadro 13 - UF: ACRE Ano de 211 82 5 6 8 9 5 3 14 4 11 9 4 4 63 2 4 7 6 6 9 4 8 4 4 3 6 68 4 2 8 3 1 8 4 9 2 6 7 5 63 3 6 3 2 13 9 8 7 5 1 5 1 67 4 2 9 6 8 5 5 7 6 6 4 5 85 3 7 1 1 4 7 9 6

Leia mais

FLUXO ATIVIDADES DE SEDES DE EMPRESAS E DE CONSULTORIA EM GESTÃO EMPRESARIAL POR UNIDADE DA FEDERAÇÃO DO ESTADO DA PARAÍBA 2009

FLUXO ATIVIDADES DE SEDES DE EMPRESAS E DE CONSULTORIA EM GESTÃO EMPRESARIAL POR UNIDADE DA FEDERAÇÃO DO ESTADO DA PARAÍBA 2009 FLUXO ATIVIDADES DE SEDES DE EMPRESAS E DE CONSULTORIA EM GESTÃO EMPRESARIAL POR UNIDADE DA FEDERAÇÃO DO ESTADO DA PARAÍBA 2009 Entradas e Saídas de Mercadorias Base 2009 FLUXO ATIVIDADES DE SEDES DE EMPRESAS

Leia mais

FLUXO TRANSPORTE AQUAVIÁRIO POR UNIDADE DA FEDERAÇÃO NO ESTADO DA PARAÍBA - 2009

FLUXO TRANSPORTE AQUAVIÁRIO POR UNIDADE DA FEDERAÇÃO NO ESTADO DA PARAÍBA - 2009 FLUXO POR UNIDADE DA FEDERAÇÃO NO ESTADO DA PARAÍBA - 2009 Entradas e Saídas de Mercadorias Base 2009 FLUXO, POR UNIDADE DA FEDERAÇÃO NO ESTADO DA PARAÍBA - 2009 Estados Norte 0 0,00 0 0 0 0,00 Rondônia

Leia mais

FLUXO ATIVIDADES FINANCEIRAS, DE SEGUROS E SERVIÇOS RELACIONADOS POR UNIDADE DA FEDERAÇÃO NO ESTADO DA PARAÍBA 2009

FLUXO ATIVIDADES FINANCEIRAS, DE SEGUROS E SERVIÇOS RELACIONADOS POR UNIDADE DA FEDERAÇÃO NO ESTADO DA PARAÍBA 2009 FLUXO ATIVIDADES FINANCEIRAS, DE SEGUROS E RELACIONADOS POR UNIDADE DA FEDERAÇÃO NO ESTADO DA PARAÍBA 2009 Entradas e Saídas de Mercadorias Base 2009 FLUXO, POR UNIDADE DA FEDERAÇÃO NO ESTADO DA PARAÍBA

Leia mais

FLUXO DE ATIVIDADES DE PRESTAÇÃO DE SERVIÇOS DE INFORMAÇÃO POR UNIDADE DA FEDERAÇÃO NO ESTADO DA PARAÍBA 2009

FLUXO DE ATIVIDADES DE PRESTAÇÃO DE SERVIÇOS DE INFORMAÇÃO POR UNIDADE DA FEDERAÇÃO NO ESTADO DA PARAÍBA 2009 FLUXO DE ATIVIDADES DE PRESTAÇÃO DE DE INFORMAÇÃO POR UNIDADE DA FEDERAÇÃO NO ESTADO DA PARAÍBA 2009 Entradas e Saídas de Mercadorias Base 2009 FLUXO DE, POR UNIDADE DA FEDERAÇÃO NO ESTADO DA PARAÍBA -

Leia mais

A Estrutura da Web. Redes Sociais e Econômicas. Prof. André Vignatti

A Estrutura da Web. Redes Sociais e Econômicas. Prof. André Vignatti A Estrutura da Web Redes Sociais e Econômicas Prof. André Vignatti A Estrutura da Web Até agora: redes onde unidades eram pessoas ou entidades sociais, como empresas e organizações Agora (Cap 13, 14 e

Leia mais

Grandes Regiões e Unidades da Federação: Esperança de vida ao nascer segundo projeção populacional: 1980, 1991-2030 - Ambos os sexos

Grandes Regiões e Unidades da Federação: Esperança de vida ao nascer segundo projeção populacional: 1980, 1991-2030 - Ambos os sexos e Unidades da Federação: Esperança de vida ao nascer segundo projeção populacional: 1980, 1991-2030 - Ambos os sexos Unidades da Federação 1980 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002

Leia mais

Tabela 1 - Conta de produção por operações e saldos, segundo as Grandes Regiões e as Unidades da Federação - 2004-2008

Tabela 1 - Conta de produção por operações e saldos, segundo as Grandes Regiões e as Unidades da Federação - 2004-2008 (continua) Produção 5 308 622 4 624 012 4 122 416 3 786 683 3 432 735 1 766 477 1 944 430 2 087 995 2 336 154 2 728 512 Consumo intermediário produtos 451 754 373 487 335 063 304 986 275 240 1 941 498

Leia mais

BC-0506: Comunicação e Redes Internet e Web como redes complexas

BC-0506: Comunicação e Redes Internet e Web como redes complexas BC-0506: Comunicação e Redes Internet e Web como redes complexas Santo André, 2Q2011 1 Agenda Internet e Web como redes complexas Estrutura da Internet como uma Redes Complexa Ligação entre páginas Web

Leia mais

O BOXPLOT. Ana Maria Lima de Farias Departamento de Estatística (GET/UFF)

O BOXPLOT. Ana Maria Lima de Farias Departamento de Estatística (GET/UFF) O BOXPLOT Ana Maria Lima de Farias Departamento de Estatística (GET/UFF) Introdução O boxplot é um gráfico construído com base no resumo dos cinco números, constituído por: Valor mínimo Primeiro quartil

Leia mais

FLUXO ATIVIDADES ADMINISTRATIVAS E SERVIÇOS COMPLEMENTARES POR UNIDADE DA FEDERAÇÃO NO ESTADO DA PARAÍBA 2009

FLUXO ATIVIDADES ADMINISTRATIVAS E SERVIÇOS COMPLEMENTARES POR UNIDADE DA FEDERAÇÃO NO ESTADO DA PARAÍBA 2009 FLUXO ATIVIDADES ADMINISTRATIVAS E COMPLEMENTARES POR UNIDADE DA FEDERAÇÃO NO ESTADO DA PARAÍBA 2009 Entradas e Saídas de Mercadorias Base 2009 FLUXO, POR UNIDADE DA FEDERAÇÃO NO ESTADO DA PARAÍBA - 2009

Leia mais

INTERNET. Professor: Leandro Crescencio E-mail: leandromc@inf.ufsm.br. http://www.inf.ufsm.br/~leandromc. Colégio Politécnico 1

INTERNET. Professor: Leandro Crescencio E-mail: leandromc@inf.ufsm.br. http://www.inf.ufsm.br/~leandromc. Colégio Politécnico 1 INTERNET Professor: Leandro Crescencio E-mail: leandromc@inf.ufsm.br http://www.inf.ufsm.br/~leandromc Colégio Politécnico 1 Internet Origem: Guerra Fria DARPA (Departamento de Defesa de Pesquisas Avançadas)

Leia mais

FLUXO TELECOMINICAÇÕES SEM FIO POR UNIDADE DA FEDERAÇÃO NO ESTADO DA PARAÍBA - 2009

FLUXO TELECOMINICAÇÕES SEM FIO POR UNIDADE DA FEDERAÇÃO NO ESTADO DA PARAÍBA - 2009 FLUXO TELECOMINICAÇÕES SEM FIO POR UNIDADE DA FEDERAÇÃO NO ESTADO DA PARAÍBA - 2009 Entradas e Saídas de Mercadorias Base 2009 FLUXO TELECOMINICAÇÕES SEM FIO, POR UNIDADE DA FEDERAÇÃO NO ESTADO DA PARAÍBA

Leia mais

FLUXO FABRICAÇÃO DE VEÍCULOS AUTOMOTORES, REBOQUES E CARROCERIAS POR UNIDADE DA FEDERAÇÃO NO ESTADO DA PARAÍBA 2009

FLUXO FABRICAÇÃO DE VEÍCULOS AUTOMOTORES, REBOQUES E CARROCERIAS POR UNIDADE DA FEDERAÇÃO NO ESTADO DA PARAÍBA 2009 FLUXO FABRICAÇÃO DE VEÍCULOS AUTOMOTORES, REBOQUES E CARROCERIAS POR UNIDADE DA FEDERAÇÃO NO ESTADO DA PARAÍBA 2009 Entradas e Saídas de Mercadorias Base 2009 FLUXO, POR UNIDADE DA FEDERAÇÃO NO ESTADO

Leia mais

Caracterização de Padrões de Uso da Rede Sem Fio do DECOM Proposta de Projeto de Monograa.

Caracterização de Padrões de Uso da Rede Sem Fio do DECOM Proposta de Projeto de Monograa. Universidade Federal de Ouro Preto - UFOP Instituto de Ciências Exatas e Biológicas - ICEB Departamento de Computação - DECOM Caracterização de Padrões de Uso da Rede Sem Fio do DECOM Proposta de Projeto

Leia mais

Pesquisa de Orçamentos Familiares 2008-2009

Pesquisa de Orçamentos Familiares 2008-2009 Ministério do Planejamento, Orçamento e Gestão Instituto Brasileiro de Geografia e Estatística - IBGE Diretoria de Pesquisas Coordenação detrabalho e Rendimento Pesquisa de Orçamentos Familiares 2008-2009

Leia mais

COLETA E MINERAÇÃO DE DADOS DE REDES SOCIAIS

COLETA E MINERAÇÃO DE DADOS DE REDES SOCIAIS Universidade Federal de Ouro Preto - UFOP Instituto de Ciências Exatas e Biológicas - ICEB Departamento de Computação - DECOM COLETA E MINERAÇÃO DE DADOS DE REDES SOCIAIS Aluno: Milton Stiilpen Júnior

Leia mais

FLUXO DO ARMAZENAMENTO E ATIVIDADES AUXILIARES DOS TRANSPORTES POR UNIDADE DA FEDERAÇÃO NO ESTADO DA PARAÍBA 2009

FLUXO DO ARMAZENAMENTO E ATIVIDADES AUXILIARES DOS TRANSPORTES POR UNIDADE DA FEDERAÇÃO NO ESTADO DA PARAÍBA 2009 FLUXO DO ARMAZENAMENTO E ATIVIDADES AUXILIARES DOS POR UNIDADE DA FEDERAÇÃO NO ESTADO DA PARAÍBA 2009 Entradas e Saídas de Mercadorias Base 2009 FLUXO DO, POR UNIDADE DA FEDERAÇÃO NO ESTADO DA PARAÍBA

Leia mais

Redes Complexas: teoria, algoritmos e aplicações em computação Bloco #6

Redes Complexas: teoria, algoritmos e aplicações em computação Bloco #6 Redes Complexas: teoria, algoritmos e aplicações em computação Bloco #6 `` Scale Free Networks Virgílio A. F. Almeida Outubro de 2009 D d Ciê i d C ã Departamento de Ciência da Computação Universidade

Leia mais

Informações sobre salários e escolaridade dos professores e comparativo com não-professores

Informações sobre salários e escolaridade dos professores e comparativo com não-professores Informações sobre salários e escolaridade dos professores e comparativo com não-professores Total de profissionais, independentemente da escolaridade 2003 2007 2008 Professores da Ed Básica (públicas não

Leia mais

O esquema metodológico da pesquisa está ilustrado na seguinte figura: FASE 1 FASE 2 FASE 3 FASE 4 REUNIÕES DE GRUPO CO/CRA-DF SE/CRA-SP INSUMOS

O esquema metodológico da pesquisa está ilustrado na seguinte figura: FASE 1 FASE 2 FASE 3 FASE 4 REUNIÕES DE GRUPO CO/CRA-DF SE/CRA-SP INSUMOS Metodologia da Pesquisa O esquema metodológico da pesquisa está ilustrado na seguinte figura: 1ª ETAPA PESQUISAS EXPLORATÓRIAS 2ª ETAPA PESQUISA QUANTITATIVA FASE 1 FASE 2 FASE 3 FASE 4 DESK RESEARCH ENTREVISTAS

Leia mais

CONCEITOS INICIAIS. Agenda A diferença entre páginas Web, Home Page e apresentação Web;

CONCEITOS INICIAIS. Agenda A diferença entre páginas Web, Home Page e apresentação Web; CONCEITOS INICIAIS Agenda A diferença entre páginas Web, Home Page e apresentação Web; O que é necessário para se criar páginas para a Web; Navegadores; O que é site, Host, Provedor e Servidor Web; Protocolos.

Leia mais

Boletim Informativo. Junho de 2015

Boletim Informativo. Junho de 2015 Boletim Informativo Junho de 2015 Extrato Geral Brasil 1 EXTRATO BRASIL ÁREA ** 397.562.970 ha 227.679.854 ha 57,27% Número de Imóveis cadastrados: 1.727.660 Observações: Dados obtidos do Sistema de Cadastro

Leia mais

Setores indutriais com maior demanda por formação segundo UF (todas as ocupações) - Média anual 2014/15

Setores indutriais com maior demanda por formação segundo UF (todas as ocupações) - Média anual 2014/15 Setores indutriais com maior demanda por formação segundo UF (todas as ocupações) - Média anual 2014/15 Estado Rondônia Acre Amazonas Roraima Pará Amapá Tocantins Maranhão Piauí Ceará Rio Grande do Norte

Leia mais

2 Conceitos Gerais de Classificação de Documentos na Web

2 Conceitos Gerais de Classificação de Documentos na Web Conceitos Gerais de Classificação de Documentos na Web 13 2 Conceitos Gerais de Classificação de Documentos na Web 2.1. Páginas, Sites e Outras Terminologias É importante distinguir uma página de um site.

Leia mais

CAPÍTULO 2. Este capítulo tratará :

CAPÍTULO 2. Este capítulo tratará : 1ª PARTE CAPÍTULO 2 Este capítulo tratará : 1. O que é necessário para se criar páginas para a Web. 2. A diferença entre páginas Web, Home Page e apresentação Web 3. Navegadores 4. O que é site, Host,

Leia mais

CAPÍTULO 2. Grafos e Redes

CAPÍTULO 2. Grafos e Redes CAPÍTULO 2 1. Introdução Um grafo é uma representação visual de um determinado conjunto de dados e da ligação existente entre alguns dos elementos desse conjunto. Desta forma, em muitos dos problemas que

Leia mais

Aula 21: Roteamento em Redes de Dados

Aula 21: Roteamento em Redes de Dados Aula : Roteamento em Redes de Dados Slide Redes de Pacotes Comutados Mensagens dividas em Pacotes que são roteados ao seu destino PC PC PC Rede de Pacotes PC PC PC PC Buffer Pacote Comutado Slide Roteamento

Leia mais

Boletim Informativo. Maio de 2015. * Errata: Tabela Fonte de Dados - Por Estado

Boletim Informativo. Maio de 2015. * Errata: Tabela Fonte de Dados - Por Estado Boletim Informativo Maio de 2015 * Errata: Tabela Fonte de Dados - Por Estado Extrato Geral Brasil EXTRATO BRASIL ÁREA ** 397.562.970 ha 212.920.419 ha 53,56 % Número de Imóveis cadastrados: 1.530.443

Leia mais

Teoria dos Grafos. Edson Prestes

Teoria dos Grafos. Edson Prestes Edson Prestes Grafos Cliques Maximais Para determinar os cliques maximais de um grafo G podemos usar o método de Maghout em Dado o grafo abaixo, calcule Determine os conjuntos independentes maximais em

Leia mais

Especial Prova ABC. Olho nas Metas 2012Resultados e. análise dos itens da Prova ABC 2012

Especial Prova ABC. Olho nas Metas 2012Resultados e. análise dos itens da Prova ABC 2012 De Especial Prova ABC 2012 Olho nas Metas 2012Resultados e análise dos itens da Prova ABC 2012 De Especial Prova ABC 2012 Olho nas Metas Resultados e análise dos itens da Prova ABC 2012 Sumário Prova ABC

Leia mais

Recuperação de Imagens na Web Baseada em Informações Textuais

Recuperação de Imagens na Web Baseada em Informações Textuais Recuperação de Imagens na Web Baseada em Informações Textuais André Ribeiro da Silva Mário Celso Candian Lobato Universidade Federal de Minas Gerais Departamento de Ciência da Computação {arsilva,mlobato}@dcc.ufmg.br

Leia mais

Analfabetismo no Brasil

Analfabetismo no Brasil Analfabetismo no Brasil Ricardo Paes de Barros (IPEA) Mirela de Carvalho (IETS) Samuel Franco (IETS) Parte 1: Magnitude e evolução do analfabetismo no Brasil Magnitude Segundo estimativas obtidas com base

Leia mais

Organização da Aula. Política de Desenvolvimento Econômico. Aula 2. Contextualização

Organização da Aula. Política de Desenvolvimento Econômico. Aula 2. Contextualização Política de Desenvolvimento Econômico Aula 2 Prof. Nivaldo Vieira Lourenço Organização da Aula Aspectos conceituais do desenvolvimento regional Mudanças no conceito de região Regionalização brasileira

Leia mais

FLUXO DE TRANSPORTES TERRESTRE POR UNIDADE DA FEDERAÇÃO NO ESTADO DA PARAÍBA - 2009

FLUXO DE TRANSPORTES TERRESTRE POR UNIDADE DA FEDERAÇÃO NO ESTADO DA PARAÍBA - 2009 FLUXO DE TRANSPORTES TERRESTRE POR UNIDADE DA FEDERAÇÃO NO ESTADO DA PARAÍBA - 2009 Entradas e Saídas de Mercadorias Base 2009 FLUXO DE TRANSPORTES TERRESTRE, POR UNIDADE DA FEDERAÇÃO NO ESTADO DA PARAÍBA

Leia mais

ESTUDO DA ADERÊNCIA AOS PADRÕES WEB DOS 26 SÍTIOS DOS MINISTÉRIOS PÚBLICOS ESTADUAIS

ESTUDO DA ADERÊNCIA AOS PADRÕES WEB DOS 26 SÍTIOS DOS MINISTÉRIOS PÚBLICOS ESTADUAIS ESTUDO DA ADERÊNCIA AOS PADRÕES WEB DOS 26 SÍTIOS DOS MINISTÉRIOS PÚBLICOS ESTADUAIS STUDY OF ADHERENCE TO STANDARDS OF WEB SITES OF 26 STATE GOVERNMENT MINISTRIES Alexandre Galvão Leite 1 (1) Pós-Graduando,

Leia mais

Boletim Informativo* Agosto de 2015

Boletim Informativo* Agosto de 2015 Boletim Informativo* Agosto de 2015 *Documento atualizado em 15/09/2015 (Erratas páginas 2, 3, 4 e 9) EXTRATO GERAL BRASIL 1 EXTRATO BRASIL 396.399.248 ha 233.712.312 ha 58,96% Número de Imóveis Cadastrados²:

Leia mais

CA Nimsoft Monitor. Guia do Probe Monitoramento de resposta do ponto de extremidade do URL. url_response série 4.1

CA Nimsoft Monitor. Guia do Probe Monitoramento de resposta do ponto de extremidade do URL. url_response série 4.1 CA Nimsoft Monitor Guia do Probe Monitoramento de resposta do ponto de extremidade do URL url_response série 4.1 Aviso de copyright do CA Nimsoft Monitor Este sistema de ajuda online (o Sistema ) destina-se

Leia mais

Data de recebimento: 03/10/03. Data de aceite para publicação: 26/01/04. 1

Data de recebimento: 03/10/03. Data de aceite para publicação: 26/01/04. 1 Revista Varia Scientia v. 04, n. 07, p.179-184 ARTIGOS & ENSAIOS Elizabete Koehler 1 Reginaldo Aparecido Zara 2 ALGORITMO PARA CÁLCULO DE DISTÂNCIAS MÍNIMAS EM REDES DE ESCALA LIVRE RESUMO: Muitos sistemas

Leia mais

PLATAFORMA DE REDES SOCIAIS COMO FERRAMENTA DE ENSINO A DISTÂNCIA

PLATAFORMA DE REDES SOCIAIS COMO FERRAMENTA DE ENSINO A DISTÂNCIA Congresso de Métodos Numéricos em Engenharia 2015 Lisboa, 29 de Junho a 2 de Julho, 2015 APMTAC, Portugal, 2015 PLATAFORMA DE REDES SOCIAIS COMO FERRAMENTA DE ENSINO A DISTÂNCIA Thiago M. R. Dias 1, Elton

Leia mais

CA Nimsoft Monitor. Guia do Probe Monitoramento de conectividade de rede. net_connect série 3.0

CA Nimsoft Monitor. Guia do Probe Monitoramento de conectividade de rede. net_connect série 3.0 CA Nimsoft Monitor Guia do Probe Monitoramento de conectividade de rede net_connect série 3.0 Aviso de copyright do CA Nimsoft Monitor Este sistema de ajuda online (o Sistema ) destina-se somente para

Leia mais

Processos (Threads,Virtualização e Migração de Código)

Processos (Threads,Virtualização e Migração de Código) Processos (Threads,Virtualização e Migração de Código) Roteiro Processos Threads Virtualização Migração de Código O que é um processo?! Processos são programas em execução. Processo Processo Processo tem

Leia mais

BCC204 - Teoria dos Grafos

BCC204 - Teoria dos Grafos BCC204 - Teoria dos Grafos Marco Antonio M. Carvalho (baseado nas notas de aula do prof. Haroldo Gambini Santos) Departamento de Computação Instituto de Ciências Exatas e Biológicas Universidade Federal

Leia mais

Figura 1: Distribuição de CAPS no Brasil, 25. RORAIMA AMAPÁ AMAZONAS PARÁ MARANHÃO CEARÁ RIO GRANDE DO NORTE PAIUÍ PERNAMBUCO ACRE ALAGOAS SERGIPE TOCANTINS RONDÔNIA PARAÍBA BAHIA MATO GROSSO DISTRITO

Leia mais

Ranking de salário e benefícios dos Tribunais de Justiça Estadual. Julho 2014

Ranking de salário e benefícios dos Tribunais de Justiça Estadual. Julho 2014 Ranking de salário e benefícios dos Tribunais de Justiça Estadual Julho 2014 SS JUSTIÇA MG SS Justiça MG Julho 2014 Tabela 1 Tribunais de Justiça Estadual posicionados conforme Vencimento Básico Vencimentos

Leia mais

Ranking de salário e benefícios dos Tribunais de Justiça Estadual. Julho 2013

Ranking de salário e benefícios dos Tribunais de Justiça Estadual. Julho 2013 Ranking de salário e benefícios dos Tribunais de Justiça Estadual Julho 2013 SS JUSTIÇA MG SS Justiça MG Julho 2013 Tabela 1 Tribunais de Justiça Estadual posicionados conforme Vencimento Básico Vencimentos

Leia mais

Nº 19 Novembro de 2011. A Evolução da Desigualdade de Renda entre os anos de 2000 e 2010 no Ceará e Estados Brasileiros Quais foram os avanços?

Nº 19 Novembro de 2011. A Evolução da Desigualdade de Renda entre os anos de 2000 e 2010 no Ceará e Estados Brasileiros Quais foram os avanços? Nº 19 Novembro de 2011 A Evolução da Desigualdade de Renda entre os anos de 2000 e 2010 no Ceará e Estados Brasileiros Quais foram os avanços? GOVERNO DO ESTADO DO CEARÁ Cid Ferreira Gomes Governador Domingos

Leia mais

1 http://www.google.com

1 http://www.google.com 1 Introdução A computação em grade se caracteriza pelo uso de recursos computacionais distribuídos em várias redes. Os diversos nós contribuem com capacidade de processamento, armazenamento de dados ou

Leia mais

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Organizaçãoe Recuperaçãode Informação GSI521 Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Análisede links Page Rank Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Motivação Suponha que um modelo clássico, como

Leia mais

CONCEITOS BÁSICOS DE INTERNET. Disciplina: INFORMÁTICA 1º Semestre Prof. AFONSO MADEIRA

CONCEITOS BÁSICOS DE INTERNET. Disciplina: INFORMÁTICA 1º Semestre Prof. AFONSO MADEIRA CONCEITOS BÁSICOS DE INTERNET Disciplina: INFORMÁTICA 1º Semestre Prof. AFONSO MADEIRA conceito inicial Amplo sistema de comunicação Conecta muitas redes de computadores Apresenta-se de várias formas Provê

Leia mais

Dimensões e características da Web brasileira: um estudo do.gov.br. Agosto de 2010

Dimensões e características da Web brasileira: um estudo do.gov.br. Agosto de 2010 Dimensões e características da Web brasileira: um estudo do.gov.br Agosto de 2010 Agenda: Introdução Objetivos da pesquisa Desafios técnicos para o estudo da Web Parceiros Secretaria de Logistica e Tecnologia

Leia mais

Sistemas Distribuídos. Professora: Ana Paula Couto DCC 064

Sistemas Distribuídos. Professora: Ana Paula Couto DCC 064 Sistemas Distribuídos Professora: Ana Paula Couto DCC 064 Sistemas Distribuídos Basedos na Web Capítulo 12 Agenda Arquitetura Processos Comunicação Nomeação Sincronização Consistência e Replicação Introdução

Leia mais

Tamiris Cristine Teodoro de Souza. Rua General Jardim, 36-5º andar- Vila Buarque CEP: 01223-906 - São Paulo- SP. Email: sinasc@prefeitura.sp.gov.

Tamiris Cristine Teodoro de Souza. Rua General Jardim, 36-5º andar- Vila Buarque CEP: 01223-906 - São Paulo- SP. Email: sinasc@prefeitura.sp.gov. 2ªE di ç a or e v i s t aea mpl i a da F e v e r e i r o/2013 2013, Prefeitura do Município de São Paulo É permitida a reprodução total ou parcial desta obra, desde que citada a fonte. PREFEITO DO MUNICÍPIO

Leia mais

Publicação web. Será ativado um assistente de publicação que lhe guiará em todas as etapas a seguir apresentadas.

Publicação web. Será ativado um assistente de publicação que lhe guiará em todas as etapas a seguir apresentadas. Publicação web Pré requisitos: Lista de questões Formulário multimídia Este tutorial tem como objetivo, demonstrar de maneira ilustrativa, todos os passos e opções que devem ser seguidos para publicar

Leia mais

Sistemas para o. Controle Externo. Tribunais de Contas. nos. Diagnóstico da situação atual

Sistemas para o. Controle Externo. Tribunais de Contas. nos. Diagnóstico da situação atual nos Sistemas para o Controle Externo Tribunais de Contas Diagnóstico da situação atual nos Sistemas para o Controle Externo Tribunais de Contas Diagnóstico da situação atual Dezembro/2012 OBJETIVO ESTRATÉGICO

Leia mais

Agência Nacional de Telecomunicações. Entidade Aferidora da Qualidade

Agência Nacional de Telecomunicações. Entidade Aferidora da Qualidade Agência Nacional de Telecomunicações Entidade Aferidora da Qualidade Qualidade da Banda Larga Publicação de Indicadores (Setembro/14) Medição Banda Larga Fixa (SCM) Para a medição da banda larga fixa (SCM)

Leia mais

BC-0506: Comunicação e Redes Algoritmos em Grafos

BC-0506: Comunicação e Redes Algoritmos em Grafos BC-0506: Comunicação e Redes Algoritmos em Grafos Santo André, 2Q2011 1 Parte 1: Algoritmos de Busca Rediscutindo: Representações em Grafos Matriz de Adjacências Matriz de Incidências Lista de Adjacências

Leia mais

CA Nimsoft Monitor Snap

CA Nimsoft Monitor Snap CA Nimsoft Monitor Snap Guia de Configuração do Monitoramento de conectividade de rede net_connect série 2.9 Aviso de copyright do CA Nimsoft Monitor Snap Este sistema de ajuda online (o Sistema ) destina-se

Leia mais

Gerenciador de Referências. EndNote. Nonato Ribeiro Biblioteca de Ciências e Tecnologia (UFC)

Gerenciador de Referências. EndNote. Nonato Ribeiro Biblioteca de Ciências e Tecnologia (UFC) Gerenciador de Referências EndNote Nonato Ribeiro Biblioteca de Ciências e Tecnologia (UFC) Pesquisa na Web of Science O que é o EndNote? Funcionalidades da ferramenta Como incluir citações no Word usando

Leia mais

3 Ferramentas de busca

3 Ferramentas de busca 3 Ferramentas de busca A Internet se transformou em um vasto repositório de informações. Podemos encontrar sites sobre qualquer assunto, de futebol a religião. O difícil, porém é conseguir encontrar a

Leia mais

SISTEMA NACIONAL DE PESQUISA DE CUSTOS E ÍNDICES DA CONSTRUÇÃO CIVIL S I N A P I RESULTADOS DE AGOSTO/2014

SISTEMA NACIONAL DE PESQUISA DE CUSTOS E ÍNDICES DA CONSTRUÇÃO CIVIL S I N A P I RESULTADOS DE AGOSTO/2014 SISTEMA NACIONAL DE PESQUISA DE CUSTOS E ÍNDICES DA CONSTRUÇÃO CIVIL S I N A P I RESULTADOS DE AGOSTO/2014 COMENTÁRIOS Índice Nacional da Construção Civil varia 0,52% em agosto O Índice Nacional da Construção

Leia mais

Agência Nacional de Telecomunicações. Entidade Aferidora da Qualidade

Agência Nacional de Telecomunicações. Entidade Aferidora da Qualidade Agência Nacional de Telecomunicações Entidade Aferidora da Qualidade Qualidade da Banda Larga Publicação de Indicadores (Junho/14) Medição Banda Larga Fixa (SCM) Para a medição da banda larga fixa (SCM)

Leia mais

Utilizando ferramentas de software livre para estudar a Web Brasileira

Utilizando ferramentas de software livre para estudar a Web Brasileira Utilizando ferramentas de software livre para estudar a Web Brasileira Agenda 1. O projeto 2. As Etapas 3. Ferramentas Utilizadas: Wire, Analise internet 4. Desafios Utilizando ferramentas de software

Leia mais

Teoria de Redes e o papel dos bancos no mercado interbancário Brasileiro

Teoria de Redes e o papel dos bancos no mercado interbancário Brasileiro Teoria de Redes e o papel dos bancos no mercado interbancário Brasileiro Daniel Oliveira Cajueiro and Benjamin Miranda Tabak Universidade Católica de Brasília Banco Central do Brasil 7 de maio de 2007

Leia mais

CA Nimsoft Monitor Snap

CA Nimsoft Monitor Snap CA Nimsoft Monitor Snap Guia de Configuração do Monitoramento de resposta do ponto de extremidade do URL url_response série 4.1 Avisos legais Copyright 2013, CA. Todos os direitos reservados. Garantia

Leia mais

Tabela 4 - Participação das atividades econômicas no valor adicionado bruto a preços básicos, por Unidades da Federação - 2012

Tabela 4 - Participação das atividades econômicas no valor adicionado bruto a preços básicos, por Unidades da Federação - 2012 Contas Regionais do Brasil 2012 (continua) Brasil Agropecuária 5,3 Indústria 26,0 Indústria extrativa 4,3 Indústria de transformação 13,0 Construção civil 5,7 Produção e distribuição de eletricidade e

Leia mais

DO COTIDIANO PARA A SALA DE AULA: ENSINANDO ESTATÍSTICA ATRAVÉS DE TEMAS GERADORES RESUMO

DO COTIDIANO PARA A SALA DE AULA: ENSINANDO ESTATÍSTICA ATRAVÉS DE TEMAS GERADORES RESUMO DO COTIDIANO PARA A SALA DE AULA: ENSINANDO ESTATÍSTICA ATRAVÉS DE TEMAS GERADORES Clayde Regina Mendes PUC-Campinas clayde@puc-campinas.edu.br Paulino Parpineli Bueno PUC-Campinas paulinobueno@gmail.com

Leia mais

Pesquisa Operacional Programação em Redes

Pesquisa Operacional Programação em Redes Pesquisa Operacional Programação em Redes Profa. Alessandra Martins Coelho outubro/2013 Modelagem em redes: Facilitar a visualização e a compreensão das características do sistema Problema de programação

Leia mais

Partições. Importador. Exportador

Partições. Importador. Exportador HO-450 Verão 2013: Pajek Material baseado nos capítulos 2, 3 e 6 do livro ESNA, 2011. Nooy, Mrvar & Batagelj, Ed. Cambridge, como material auxiliar na disciplina do curso de verão HO-450, ministrada em

Leia mais

Introdução à Engenharia de Computadores e Telemática. Guião das Aulas Práticas

Introdução à Engenharia de Computadores e Telemática. Guião das Aulas Práticas Introdução à Engenharia de Computadores e Telemática Guião das Aulas Práticas Departamento de Eletrónica, Telecomunicações e Informática Universidade de Aveiro 20122013 Conteúdo 1 Introdução ao UNIX 3

Leia mais

Indicador do PIB Trimestral Espírito Santo IV Trimestre de 2011

Indicador do PIB Trimestral Espírito Santo IV Trimestre de 2011 Indicador do PIB Trimestral Espírito Santo IV Trimestre de 2011 Vitória, 29 de Maio de 2012 Indicador de PIB trimestral 17 atividades econômicas pesquisadas, em consonância com os setores das Contas Regionais

Leia mais

BC-0506: Comunicação e Redes Leis de Potência

BC-0506: Comunicação e Redes Leis de Potência BC-0506: Comunicação e Redes Leis de Potência Santo André, 2Q2011 1 Leis de Potência Introdução Distribuições de probabilidade Leis de potência e escalas logarítmicas Interpretando as leis de potência

Leia mais

ESTUDO SOBRE ARRECADAÇÃO DE IPVA E SUA PROPORCIONALIDADE EM RELAÇÃO À FROTA DE VEÍCULOS E À POPULAÇÃO BRASILEIRA

ESTUDO SOBRE ARRECADAÇÃO DE IPVA E SUA PROPORCIONALIDADE EM RELAÇÃO À FROTA DE VEÍCULOS E À POPULAÇÃO BRASILEIRA ESTUDO SOBRE ARRECADAÇÃO DE IPVA E SUA PROPORCIONALIDADE EM RELAÇÃO À FROTA DE VEÍCULOS E À POPULAÇÃO BRASILEIRA JOÃO ELOI OLENIKE GILBERTO LUIZ DO AMARAL LETÍCIA MARY FERNANDES DO AMARAL FERNANDO STEINBRUCH

Leia mais

FLUXO CONSTRUÇÃO - SERVIÇOS ESPECIALIZADOS PARA CONSTRUÇÃO, POR UNIDADE DA FEDERAÇÃO NO ESTADO DA PARAÍBA 2009

FLUXO CONSTRUÇÃO - SERVIÇOS ESPECIALIZADOS PARA CONSTRUÇÃO, POR UNIDADE DA FEDERAÇÃO NO ESTADO DA PARAÍBA 2009 FLUXO - SERVIÇOS ESPECIALIZADOS PARA, POR UNIDADE DA FEDERAÇÃO NO ESTADO DA PARAÍBA 2009 Entradas e Saídas de Mercadorias Base 2009 FLUXO DE, POR UNIDADE DA FEDERAÇÃO NO ESTADO DA PARAÍBA - 2009 Estados

Leia mais

Estudo Prospectivo da Aderência aos Padrões Web dos 27 sítios das Assembleias Legislativas

Estudo Prospectivo da Aderência aos Padrões Web dos 27 sítios das Assembleias Legislativas Estudo Prospectivo da Aderência aos Padrões Web dos 27 sítios das Assembleias Legislativas Prospective Study of Adherence to Standards of the 27 Web sites of the Legislative Assemblies Galvão, Alexandre;

Leia mais

MINISTÉRIO DA SAÚDE. Hanseníase no Brasil DADOS E INDICADORES SELECIONADOS

MINISTÉRIO DA SAÚDE. Hanseníase no Brasil DADOS E INDICADORES SELECIONADOS MINISTÉRIO DA SAÚDE Hanseníase no Brasil DADOS E INDICADORES SELECIONADOS Brasília DF 2009 MINISTÉRIO DA SAÚDE Secretaria de Vigilância em Saúde Departamento de Vigilância Epidemiológica Hanseníase no

Leia mais

Protocolos de Internet (família TCP/IP e WWW) Primeiro Técnico. Prof. Cesar

Protocolos de Internet (família TCP/IP e WWW) Primeiro Técnico. Prof. Cesar Primeiro Técnico Protocolos de Internet (família TCP/IP e WWW) Prof. Cesar 1 TCP - Transmission Control Protocol Esse protocolo tem como principal objetivo realizar a comunicação entre aplicações de dois

Leia mais

Contrata Consultor na modalidade Produto

Contrata Consultor na modalidade Produto Contrata Consultor na modalidade Produto PROJETO 914BRA4007 EDITAL Nº 3/2010 1. Perfil: no. 1 Sol e Praia 3. Qualificação educacional: Pós-graduação em turismo, geografia, educação ambiental, recreação

Leia mais

Introdução à Engenharia de Computadores e Telemática. Guião das Aulas Práticas

Introdução à Engenharia de Computadores e Telemática. Guião das Aulas Práticas Introdução à Engenharia de Computadores e Telemática Guião das Aulas Práticas Departamento de Eletrónica, Telecomunicações e Informática Universidade de Aveiro 20122013 Conteúdo 1 Introdução ao UNIX 3

Leia mais

Publicação de uma pesquisa na web

Publicação de uma pesquisa na web Publicação de uma pesquisa na web Pré-requisitos: Lista das questões Formulário multimídia A publicação de pesquisas na web possibilita que pesquisas sejam respondidas de qualquer computador com acesso

Leia mais

Informática Aplicada. Aula 3 Internet, Browser e E-mail. Professora: Cintia Caetano

Informática Aplicada. Aula 3 Internet, Browser e E-mail. Professora: Cintia Caetano Informática Aplicada Aula 3 Internet, Browser e E-mail Professora: Cintia Caetano SURGIMENTO DA INTERNET A rede mundial de computadores, ou Internet, surgiu em plena Guerra Fria, no final da década de

Leia mais

INTERNET OUTLOOK. 1. Considerando os conceitos e os modos de navegação na Internet, assinale a opção correta.

INTERNET OUTLOOK. 1. Considerando os conceitos e os modos de navegação na Internet, assinale a opção correta. Prof. Júlio César S. Ramos P á g i n a 1 INTERNET OUTLOOK 1. Considerando os conceitos e os modos de navegação na Internet, assinale a opção correta. A O Outlook Express permite criar grupo de pessoas

Leia mais

RESULTADOS DO ÍNDICE DE VULNERABILIDADE SOCIAL DO PARANÁ - 2010 *

RESULTADOS DO ÍNDICE DE VULNERABILIDADE SOCIAL DO PARANÁ - 2010 * RESULTADOS DO ÍNDICE DE VULNERABILIDADE SOCIAL DO PARANÁ - 2010 * Os resultados aqui apresentados foram extraídos do Atlas da Vulnerabilidade Social nos Municípios Brasileiros, elaborado pelo Instituto

Leia mais

Proposta de Ação nº 987/2014 (Processo nº 48610.008961/2014-14) e nº 988/2014 (Processo nº 48610.006853/2014-15)

Proposta de Ação nº 987/2014 (Processo nº 48610.008961/2014-14) e nº 988/2014 (Processo nº 48610.006853/2014-15) Nota Técnica n o 151 /SAB Rio de Janeiro, 18 de maio de 2015 Assunto: Minutas de resoluções que estabelecem os requisitos necessários à autorização para o exercício da atividade de distribuição e de revenda

Leia mais

Dimensões e características da Web brasileira: um estudo do.gov.br. Agosto de 2010

Dimensões e características da Web brasileira: um estudo do.gov.br. Agosto de 2010 Dimensões e características da Web brasileira: um estudo do.gov.br Agosto de 2010 Agenda: Introdução Objetivos da pesquisa Desafios técnicos para o estudo da Web Análise dos resultados O que é o Projeto

Leia mais

Portal TRILHAS em números

Portal TRILHAS em números Portal TRILHAS Portal TRILHAS em números Projeção dos Acessos Número de usuários cadastrados: 14.289 * - 20.381 acessos (duração aproximada de 15 minutos); - 12 páginas, em média, acessadas por visita.

Leia mais

Sumário INTRODUÇÃO 3 DICAS PARA CRIAR UM BOM SITE 4

Sumário INTRODUÇÃO 3 DICAS PARA CRIAR UM BOM SITE 4 Sumário Todos os direitos reservados e protegidos pela Lei 5.988 de 14/12/73. Nenhuma parte deste livro, sem prévia autorização por escrito de Celta Informática, poderá ser reproduzida total ou parcialmente,

Leia mais

PARANÁ GOVERNO DO ESTADO

PARANÁ GOVERNO DO ESTADO PARANÁ GOVERNO DO ESTADO COLÉGIO ESTADUAL DE PARANAVAÍ ENSINO FUNDAMENTAL, MÉDIO, NORMAL E PROFISSIONAL CURSO TÉCNICO EM INFORMÁTICA DISCIPLINA: INTERNET E PROGRAMAÇÃO WEB 1º MÓDULO SUBSEQUENTE MECANISMOS

Leia mais

Sistema Nota Fiscal Eletrônica

Sistema Nota Fiscal Eletrônica Fiscal eletrônica Sistema Fiscal Eletrônica Técnica 2013/007 Apresenta o novo ambiente de autorização de contingência do Sistema NF-e e disciplina a sua forma de uso pelas empresas: SVC - SEFAZ VIRTUAL

Leia mais

Um estudo sobre o uso de agentes de internet em buscas (Junho 2010)

Um estudo sobre o uso de agentes de internet em buscas (Junho 2010) IA009 INTRODUÇÃO À TEORIA DE AGENTES 1 Um estudo sobre o uso de agentes de internet em buscas (Junho 2010) Alexandre Fatayer Canova, RA 107214, UNICAMP Agentes de internet são parte integrante da web na

Leia mais

Microsoft Internet Explorer. Browser/navegador/paginador

Microsoft Internet Explorer. Browser/navegador/paginador Microsoft Internet Explorer Browser/navegador/paginador Browser (Navegador) É um programa que habilita seus usuários a interagir com documentos HTML hospedados em um servidor web. São programas para navegar.

Leia mais

Agência Nacional de Telecomunicações. Entidade Aferidora da Qualidade

Agência Nacional de Telecomunicações. Entidade Aferidora da Qualidade Agência Nacional de Telecomunicações Entidade Aferidora da Qualidade Qualidade da Banda Larga Publicação de Indicadores (dezembro/13) Janeiro de 2014 Medição Banda Larga Fixa (SCM) Para a medição da banda

Leia mais

SISTEMA NACIONAL DE PESQUISA DE CUSTOS E ÍNDICES DA CONSTRUÇÃO CIVIL S I N A P I RESULTADOS DE JUNHO/2014

SISTEMA NACIONAL DE PESQUISA DE CUSTOS E ÍNDICES DA CONSTRUÇÃO CIVIL S I N A P I RESULTADOS DE JUNHO/2014 SISTEMA NACIONAL DE PESQUISA DE CUSTOS E ÍNDICES DA CONSTRUÇÃO CIVIL S I N A P I RESULTADOS DE JUNHO/2014 COMENTÁRIOS Índice Nacional da Construção Civil varia 0,59% em Junho O Índice Nacional da Construção

Leia mais

FLUXO COMÉRCIO E REPARAÇÃO DE VEÍCULOS AUTOMOTORES E MOTOCICLETAS POR UNIDADE DA FEDERAÇÃO NO ESTADO DA PARAÍBA - 2009

FLUXO COMÉRCIO E REPARAÇÃO DE VEÍCULOS AUTOMOTORES E MOTOCICLETAS POR UNIDADE DA FEDERAÇÃO NO ESTADO DA PARAÍBA - 2009 FLUXO COMÉRCIO E REPARAÇÃO DE VEÍCULOS AUTOMOTORES E MOTOCICLETAS POR UNIDADE DA FEDERAÇÃO NO ESTADO DA PARAÍBA - 29 Entradas e Saídas de Mercadorias Base 29 E REPARAÇÃO DE VEÍCULOS AUTOMOTORES E MOTOCICLETAS,

Leia mais

EProcessos: Um Sistema para Edição de Processos de Software

EProcessos: Um Sistema para Edição de Processos de Software Universidade Federal de Ouro Preto - UFOP Instituto de Ciencias Exatas e Biologicas - ICEB Departamento de Computação - DECOM EProcessos: Um Sistema para Edição de Processos de Software Aluno: Sávio Geraldo

Leia mais

Introdução à Engenharia de Computadores e Telemática. Guião das Aulas Práticas

Introdução à Engenharia de Computadores e Telemática. Guião das Aulas Práticas Introdução à Engenharia de Computadores e Telemática Guião das Aulas Práticas Departamento de Eletrónica, Telecomunicações e Informática Universidade de Aveiro 20122013 Conteúdo 1 Introdução ao UNIX 3

Leia mais

Metodologia de Investigação de Doses Elevadas em Instalações de Radiodiagnóstico Médico

Metodologia de Investigação de Doses Elevadas em Instalações de Radiodiagnóstico Médico Metodologia de Investigação de Doses Elevadas em Instalações de Radiodiagnóstico Médico Adriana Elisa Barboza Cíntia Pinheiro de Souza Martins Dr. Francisco Cesar Augusto da Silva IRD / CNEN Objetivos

Leia mais