Renato Assunção UFMG

Documentos relacionados
Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Web Ranking. Mineração de Dados Luís Rato

Nome: Lucas da Silva Oliveira. Professor: Ricardo Fabbri

Google PageRank: matemática básica e métodos numéricos. Paulo Vasconcelos - CMUP

Exercícios Adicionais

Conectar diferentes pesquisas na internet por um menu

do Google - Page Rank Mariana Pereira de Melo Dissertação apresentada ao Instituto de Matemática e Estatística da Universidade de São Paulo para

Alguns truques do Excel. 1- Títulos com inclinação. 2- Preencha automaticamente células em branco

BC-0506: Comunicação e Redes Internet e Web como redes complexas

7 - Análise de redes Pesquisa Operacional CAPÍTULO 7 ANÁLISE DE REDES. 4 c. Figura Exemplo de um grafo linear.

Lista 1 para a P2. Operações com subespaços

Convertendo resultados

CADERNOS DE INFORMÁTICA Nº 1. Fundamentos de Informática I - Word Sumário

Manual de Utilização do PDV Klavix

Markes Roberto Vaccaro

Análise de Links e Busca na Web

MATEMÁTICA A - 12o Ano Probabilidades - Triângulo de Pascal Propostas de resolução

Ao redigir este pequeno guia pretendi ser conciso, indo directamente ao essencial.

1) Eficiência e Equilíbrio Walrasiano: Uma Empresa

Lista de Exercícios 3 Estruturas de Controle Profa Susana M Iglesias

Como criar um blog. Será aberta uma janela onde você deverá especificar o título do blog, o endereço do blog, e o modelo.

8 Conclusões, recomendações e desdobramentos

Estudaremos métodos numéricos para resolução de sistemas lineares com n equações e n incógnitas. Estes podem ser:

Apostila de. WordPress. Gustavo Teixeira da Cunha Coelho Henrique Gemignani Passos Lima. 13 de maio de Primeira Edição RC2

ICMC USP São Carlos 24/03/2011

Aula 4 Estatística Conceitos básicos

36 a Olimpíada Brasileira de Matemática Nível Universitário Primeira Fase

CURSO BÁSICO DE CRIAÇÃO DE SITES MÓDULO 2 AULA 3

Pagerank para Ordenação de Resultados em Ferramenta de Busca na Web

Arquitetura de Rede de Computadores

Vamos criar uma nova Página chamada Serviços. Clique em Adicionar Nova.

SGAA AGV Gerar Senha de atendimento

Microeconomia II. Cursos de Economia e de Matemática Aplicada à Economia e Gestão

JavaScript (ou JScript)

Ian Castro de Souza CSO da Salve! Digital

COORDENAÇÃO DE EAD MANUAL DE UTILIZAÇÃO DO MOODLE 2.6 PERFIL ALUNO. Versão 1.0

Olá, Somos Ideatera - Studio Tecnológico

Introdução a JavaServer Pages. Curso de Tecnologia em Análise e Desenvolvimento de Sistemas Desenvolvimento de sistemas web

Lista de Exercícios Tratamento de Incerteza baseado em Probabilidade

O motor de reserva mais completo. Maximiza as vendas pela internet. Aumenta efetivamente as receitas. Todo sem sair do site do hotel

O Princípio da Complementaridade e o papel do observador na Mecânica Quântica

Criando Quiz com BrOffice.impress

ARQUITETURA E ORGANIZAÇÃO DE COMPUTADORES SISTEMAS DE NUMERAÇÃO: REPRESENTAÇÃO EM PONTO FLUTUANTE. Prof. Dr. Daniel Caetano

Sumário. 1 Introdução. Demonstrações Contábeis Decifradas. Aprendendo Teoria

PROGRAMAÇÃO ESTRUTURADA. CC 2º Período

Teclado. Mike McBride Anne-Marie Mahfouf Tradução: Lisiane Sztoltz

Cadeias de Markov. Geovany A. Borges

Amostras e guias de iniciação Versão 8 Edição 0. Guia de iniciação do Hiring Sample para o IBM Process Designer

Construtor de sites SoftPixel GUIA RÁPIDO - 1 -

Capítulo 5: Aplicações da Derivada

Exercícios 1. Determinar x de modo que a matriz

Cálculo Numérico Faculdade de Engenharia, Arquiteturas e Urbanismo FEAU

PROCON-PR EM NÚMEROS. Guia de Uso

Aula 9 Plano tangente, diferencial e gradiente

MULTIACERVO Implementações da versão 20-1

Trabalho de Implementação Jogo Reversi

SOCIEDADE BRASILEIRA DE MATEMÁTICA MESTRADO PROFISSIONAL EM REDE NACIONAL PROFMAT

O Gerenciamento de Documentos Analógico/Digital

UNIPAMPA Universidade Federal do Pampa. Núcleo de Tecnologia da Informação (NTI)

Figura 1 Busca Linear

QUESTÕES COMENTADAS E RESOLVIDAS

MANUAL DE UTILIZAÇÃO DO EQUIPA TIC

Aula de JavaScript 05/03/10

Índice. 5. Editar as seções de um curso 6. Estruturar o curso 7. Publicar o curso 8. Resumo do Fluxo de criação de um curso no educommons

Prova de Admissão para o Mestrado em Matemática IME-USP

Documento Descritivo do Mecanismo de Busca. Preparação do Portal para indexação

Resolução de sistemas lineares

Actualizaç ões e novas funcionalidades. Inoxnet. Versã o (c) EBASE Lda.

ORIENTAÇÕES BÁSICAS PARA COMPRA DE TÍTULOS NO TESOURO DIRETO

0, OU COMO COLOCAR UM BLOCO QUADRADO EM UM BURACO REDONDO Pablo Emanuel

Campanha de 3 s para Aumentar as Vendas do teu Produto e Serviço de TIC

MANUAL DA SECRETARIA

O PaperPort 12 Special Edition (SE) possui uma grande variedade de novos e valiosos recursos que ajudam a gerenciar seus documentos.

Primeiros passos das Planilhas de Obra v2.6

Neste tópico, você aprenderá a criar facilmente um banco de dados para uma nova empresa e a definir configurações comuns de uma empresa no SAP

MANUAL DE UTILIZAÇÃO DOMINIO ATENDIMENTO

Algoritmos de Busca em Tabelas

Secretaria de Tecnologia da Informação Coordenadoria de Suporte Técnico aos Usuários

Tutorial Moodle ESDM - professores

Unidade 5: Sistemas de Representação

Aula 4 Conceitos Básicos de Estatística. Aula 4 Conceitos básicos de estatística

Recibos à Parte. Nesta tela devem ser cadastrados os eventos que deseja emitir separadamente para o mês de referência.

AV1 - MA (b) Se o comprador preferir efetuar o pagamento à vista, qual deverá ser o valor desse pagamento único? 1 1, , , 980

Figure 2 - Nós folhas de uma árvore binária representando caracteres ASCII

Escola Secundária de Jácome Ratton

Criar as tabelas para um banco de dados

Superintendência Regional de Ensino de Ubá - MG Núcleo de Tecnologia Educacional NTE/Ubá. LibreOffice Impress Editor de Apresentação

BearingNet - Orçamentos Contenuto

Partilha online 3.1. Edição 1

MAIS CLIENTES, MAIS VENDAS SEO. Estampe sua marca na primeira página do Google

MANUAL - CONTABILIDADE

A Otimização Colônia de Formigas

Formador: Carlos Maia

3.4 Representação física: alocação encadeada (dinâmica) Ptlista - variável ponteiro externa que indica o início da lista.

1 Contextualização 3 2 Administração do Joomla 5 3 Painel de controlo Menu sítio Menu utilizadores Outras funcionalidades 8 4

FERRAMENTAS DE COLABORAÇÃO CORPORATIVA

Manual do Instar Mail v2.0

4 Linux e HackerTeen Equipe de Gestão de Educação à Distância

Resoluções comentadas de Raciocínio Lógico e Estatística SEFAZ - Analista em Finanças Públicas Prova realizada em 04/12/2011 pelo CEPERJ

Transcrição:

Renato Assunção UFMG

IR: O que existe de diferente na Web? (Kumar) Busca na Web: não e igual a busca numa base comum? Volume (> 40 bilhões = 4 * 10 10 ver http://www.worldwidewebsize.com) Mudança (23% por dia, conteúdo dinamico) Decaimento (meia-vida das páginas é curta) Heterogeneidade (HTML, AJAX (java+xml), pdf, images) Diferentes idiomas Duplicação (cópia exata, quase- cópia) Qualidade variável Problemas nos links (links maliciosos, 404 (broken link), redirecionamento, dead-ends)

Recuperação de informação na WEB PRIMEIRO PASSO: Criar um índice das páginas e de seus conteúdos: Web crawler indexar as páginas recuperar conteúdo Este índice deve ser constantemente atualizado SEGUNDO PASSO Recebe query de usuário: geralmente, mal formulada Encontra muitas páginas relevantes: milhares Passa a um algoritmo de PageRank para ordenar e exibir as páginas

Estrutura de Links da web Webpages são ligadas INLinks e OUTlinks Só os outlinks são criados. Porque as pessoas criam outlinks? dar autoridade e aprovação às páginas apontadas E uma indicação (latente) de que o apontador confia na página apontada.

Google s PageRank Sergey Brin and Larry Page Comecaram em 1995 enquanto estudantes de PhD em Stanford

Web como um grafo

O que e o rank de uma pagina P? Seja r(p) o rank da página P r(p) 0 Ele e uma medida da relevância da página na WEB Quando um procedimento de text mining identificar QUAIS os documentos que parecem relevantes para MINHA BUSCA, eles serão retornados numa dada ordem. Esta ordem e aquela determinada pelos rankings r(p)s das páginas que foram encontradas. Assim, a ordem de apresentação das páginas depende apenas dos valores de r(p), quanto maior r(p) mais a frente na lista.

Exemplo: r(p) s somam 100%

O que e o rank de uma página P? Seja r(p) 0 o rank da página P Esta medida Não depende de nenhuma query especifica não depende do interesse do usuário que vai fazer a busca Não depende do tipo de assunto pelo qual ele tem ou não tem interesse e um numero absoluto!! Ele e calculado de antemão e guardado numa tabela.

Como os rankings são usados? Suponha tabela com um ranking r(p) para cada página da web Os rankings r(p) s somam 100% A cada consulta especifica: Encontramos as páginas que parecem relevantes, um subconjunto de todas as paginas Pegamos os rankings r(p) s dessas páginas relevantes Este e apenas um subconjunto dos rankings e NÃO SOMAM 100% Retornamos as páginas relevantes na ordem dos seus r(p) s

Como obter o rank r(p)? Seja r(p) o rank da página P Seja B_P o conjunto de páginas que apontam para P Isto e, B_P = conjunto dos nós que levam diretamente a P em um único passo Para cada página Q em B_P, calcule seu rank r(q) A indicação de uma página que aponta para poucas outras páginas e mais relevante do que a indicação de uma página que aponta para milhares de outras

Relevância por indicação

Exemplo:

Procedimento recursivo Calculo-Definicao de r(p) depende do valor de r(q) das outras paginas vizinhas. O r(q) dessas vizinhas depende do rank r(p). Dilema do ovo e da galinha: começa com valor inicial fictício para r(p) e itere Suponha que existam n páginas em toda Web Comece com 1/n Itere sucessivamente ate convergir

Iteração matricial Procedimento iterativo em forma matricial Seja Procedimento iterativo em forma matricial Seja Então

A iteração matricial Iteração matricial Fica reduzida a t j t j t t t t P j 2PP j 3PPP... 0PP P 0 1... P j Isto é, a j-ésima avaliação do vetor de page rankings é a potência j da matriz P aplicada ao vetor inicial (1º.)

Funciona... Mas como e porque? Processo iterativo converge ou pode prosseguir indefinidamente? Sob que circunstancias ou propriedades de P vamos ter convergencia? Vai convergir para algo que faz sentido no contexto de Web retrieval information? Converge sempre para um único vetor ou pode convergir para mais de um vetor? Depende dos valores iniciais r 0 (P i )? Quanto tempo para convergir?

Grafo matriz de vizinhança

Passeando aleatoriamente na Web P e a matriz de transicao de uma cadeia de Markov P = matriz estocastica: P ij 0 Linhas somam 1 Estados = nos do grafo Em cada instante, pule para nova pagina escolhendo um link ao acaso

Matriz de transicao P ij = Prob(de ir de i para j em um passo) P 2 = PP tambem e matriz estocastica elementos não-negativos somando 1 nas linhas P 2 ij = Prob (de ir de i para j em DOIS passos) Idem para P k

Autovetores e PageRank Teorema: Seja P a matriz n x n de transição de uma cadeia de Markov Suponha que a cadeia e aperiodica e irredutivel Entao existe um único vetor de dimensao n tal que: t P = t e t (1,...,1) = 1 Este vetor e chamado de distribuição estacionaria. ESTE VETOR E O RANKING DAS PAGINAS WEB!!!!! Alem disso, lim k P k = (1,...,1) t Isto implica que lim j j t = lim j j-1 t P = π 0 t lim j P j = t

Ajustando P Matriz P pode NÃO SER uma matriz estocastica Paginas sem OUTlinks: Documentos pdf Imagens Geram linhas com elementos P ij =0, que somam ZERO Isto e, substitua a linha nula por uma linha com todos os valores iguais a 1/numero de paginas na web Assim, se chegar nesta pagina, pula para uma outra pagina escolhida ao acaso na web.

Outro ajuste na matriz A matriz modificada para superar as paginas sem links e a matriz S. Precisamos de mais uma modificação. Existem também regiões quase absorventes que dificultam a convergência para uma dist estacionária São quase-cliques, grupos fechados de páginas que se interapontam mas que possuem poucas ligações com o resto da web.

Solução de Brin and Page: Teleportation Ocasionalmente, com probab (1- α) o surfista da Web escolhe uma das n páginas da web ao acaso para recomeçar. Seja e = (1,...,1) Em termos matriciais: G α S + (1- α) (1/n) e.e t α 0.85 no Google

PageRank Com estas modificacoes (isto é, com a matriz G), o algoritmo PageRank encontra os rankings: E o único autovetor π pela esquerda da matriz G que possui autovalor 1 Como encontrar estes rankings na prática, já que G é uma matriz bilionária? Inviável calcular autovetor por métodos tradicionais Método da potência: Para QUALQUER vetor inicial, a sequencia π 0 t G k converge para vetor o vetor π, Use π 0 = 1/n * (1,..., 1)

Convergência Rapidez da convergência depende do segundo maior autovalor de G = α (P + (1/n) * a.e t ) + (1- α) (1/n) e.e t Primeiro (maior) autovalor é 1 (matriz estocástica) Todos os outros autovalores têm módulo menor que 1 (Teorema de Perron-Frobenius) Segundo maior autovalor 2 : Diferença 1-2 : spectral gap quanto menor o spectral gap, mais lenta a convergência Quanto menor α, mais rápida a convergência mas pior a representação da estrutura da web. Google PageRank itera entre 50 e 100 vezes para obter convergência

Vetores personalizados Different teleportation: Ao invés de usar (1/n) e.e t, use e.v t v é um vetor de probabilidade de dimensão n e.v t é uma matriz n x n Modificando G = α (P + (1/n) * a.e t ) + (1- α) (1/n) e.e t por G = α (P + (1/n) * a.e t ) + (1- α) e.v t Com probab (1- α), usuário escolhe nova página com probab dada pelo vetor v

Vetores personalizados Todas as propriedades são preservadas: Ainda pode usar o método de potência Taxa de convergência governada por α Pode usar métodos de multiplicação de matriz esparsa Armazenagem mínima Pode fazer método ser dependente da query

Alguns detalhes finais SIAM meeting in 2002: Google declarou que atualiza mensalmente os page rankings, tudo de novo (incluindo a criação do index) Maioria do material nestes slides veio do livro abaixo: Google's PageRank and Beyond: The Science of Search Engine Rankings Amy N. Langville e Carl D. Meyer