MATHEUS SEREZANI NICOLOSI BALANCEAMENTO EM TABELAS HASH DISTRIBUÍDAS SENSÍVEIS À LOCALIDADE

Documentos relacionados
Tabelas hash distribuídas sensíveis à localidade

Consultas por Similaridade em Domínios de Dados Complexos

Métodos de Acesso Métrico

Busca por Similaridade no CassandraDB. Antonio Mourão, Rafael Pasquini, Rodolfo Villaça, Lasaro Camargos

MATHEUS SEREZANI NICOLOSI BALANCEAMENTO EM TABELAS HASH DISTRIBUÍDAS PARA CONSULTAS POR SIMILARIDADE USANDO FUNÇÕES DE HASH SENSÍVEIS À LOCALIDADE

Compartilhamento e localização de conteúdo. Hubert Fonseca Algoritmos Distribuídos PUC Rio Junho de Redes P2P

Busca por Similaridade no CassandraDB

Descritores de Imagens

DERYK SEDLAK RIBEIRO UM ESTUDO DAS ARQUITETURAS DE MIDDLEWARE ABORDADAS EM SISTEMAS DE COMÉRCIO ELETRÔNICO

Explorando o Uso de Short-term Memory na Construção de Métodos de Acesso Métricos Mais Eficientes

UsodeLógica Nebulosa na Construção e na Utilização da Árvore Métrica Slim-tree

MATHEUS SEREZANI NICOLOSI GERENCIAMENTO DE RISCOS EM PROJETOS DE SOFTWARE

Paradigma. Ponto-a-Ponto. Compartilhamento de serviços e recursos computacionais diretamente entre sistemas. Integração de Dados e Warehousing

3.2 Espaços Métricos e Consultas por Similaridade

Sistemas entre Pares e Redes Sobrepostas

características compartilhamento de recursos sem necessidade de um elemento centralizador ciclos de CPU, armazenamento, banda...

Sistemas entre Pares e Redes Sobrepostas

Peer-to-Peer. Introdução. Motivação. Definição. Definição. Definição. Everton Flávio Rufino Seára Murilo R. de Lima

Redes P2P. Apresentadora: Luciana Pereira Oliveira. Duração: 40 minutos Data: 20/07/

Proposta de Rede P2P Organizada por Índices

GUSTAVO PAIVA MESSIAS RIBEIRO

Desenvolvimento de algoritmos de clusterização sobre grafos de proximidade em ambientes distribuídos

Seleção e Otimização de Fontes

Projeções Multi-dimensionais

Algoritmos de bulk-loading para o método de acesso métrico Onion-tree. Arthur Emanuel de Oliveira Carosia

Pesquisa de Dados e Distâncias na Aprendizagem Automática. Fonte: [E.Chavez et al, 2001]

PEDRO LUIZ GARBIM BRAHIM APLICAÇÃO DOS PROCESSOS DE GERENCIAMENTO DE DEMANDA E CAPACIDADE NO LABORATÓRIO GAIA COM BASE NA ITIL V3 2011

Paradigma. Ponto-a-Ponto. Compartilhamento de serviços e recursos computacionais diretamente entre sistemas. Integração de Dados e Warehousing

Integração da dimensão tempo em consultas por similaridade sobre dados métricos

Sistemas Distribuídos Capítulo 2 - Aula 2

UNIVERSIDADE FEDERAL DE SÃO CARLOS ANÁLISE DA EVOLUÇÃO TEMPORAL DE DADOS MÉTRICOS

X-Peer: Um Middleware para Aplicações Peer-to-Peer

STD29006 Sistemas Distribuídos

Banco de Dados Espaciais

Sistemas de Recomendação Uma abordagem geral

Novas políticas de divisão de nós para a Slim-tree

HAYATO FUJII PROPOSTA DE INSERÇÃO EM LOTE DE ELEMENTOS EM ARVORES MÉTRICAS DISTRIBUIDAS

PÓS-GRADUAÇÃO ANÁLISE DE BIG DATA

THAIS CARDOSO DA SILVA COMPARAÇÃO DE ALGORITMOS PARA GERAÇÃO PROCEDURAL DE FASES

Diego Takashi Sato Pollyanna Fernandes Moreira SISTEMAS DISTRIBUÍDOS PROFESSOR VAGNER SACRAMENTO

Dados Espaciais e Indexação

UNIVERSIDADE DE SÃO PAULO

GROUPS-NET: Roteamento Ciente de Encontros de Grupos em Redes Móveis

TEMPLATE PARA TCC IFFAR - SVS

Escalonamento Multidimensional

Aplicações P2P. André Lucio e Gabriel Argolo

Image Descriptors: color

Arquiteturas. Capítulo 2

Estudo de Técnicas para Indexação e Recuperação de Sequências Numéricas: Segmentação Adaptativa e Processamento de Consultas em Lote

PEER DATA MANAGEMENT SYSTEM

Sumário. Referências utilizadas. Introdução. MAFIA: Merging of Adaptive Finite Intervals. Introdução Visão Geral e Objetivos do MAFIA

Manipulação de dados multimídia em SGBD relacionais

o que é p2p? sistemas onde todos os nós são equivalentes em funcionalidade e no papel desempenhado ...

VCubeDHT - Uma DHT de Salto Único Baseada em um Hipercubo Virtual com Replicação Alexandre Barreiro Neto

Introdução às Redes Neurais Artificiais

3 Sistemas distribuídos em arquiteturas P2P

NATAN DE ALMEIDA LAVERDE INTEGRAÇÃO DA DIMENSÃO TEMPO EM CONSULTAS POR SIMILARIDADE SOBRE DADOS MÉTRICOS

Redes P2P Gnutella e Simuladores

Resumo. 1 Introdução Motivação Abordagem. 2 Desenho Pastry Pastel Interface Manutenção. 3 Avaliação Largura de banda Procuras Manutenção Replicação

2 Núcleos: suas propriedades e classificações

Introdução ao tema das Redes Bayesianas

Proposta de Dissertação de Mestrado. Mecanismo Genérico e Dinâmico para Balanceamento de Carga Distribuído em Nós DDS do SDDL

K-MEANS COM ÁRVORES KD

Aprendizado de Máquina (Machine Learning)

Um Estudo Sobre Middlewares Adaptáveis

Universidade Federal de Minas Gerais (UFMG) Belo Horizonte, Brasil. 2 HP Labs. Bristol, UK

Mineração de Dados em Biologia Molecular

Título: Estudo de inferência estatística para fraquezas de software catalogadas

MBA ANALYTICS EM BIG DATA

Sistemas Distribuídos: Conceitos e Projeto Arquiteturas Ponto a Ponto

COMPARTILHAMENTO DE CONTEÚDO EM REDES PEER-TO-PEER. 1. Introdução

Um Calculador de Capacidade de Computação para Nós de Máquinas Virtuais LAM/MPI

Avaliação de Desempenho de Sistemas Operacionais em dispositivos embarcados para a provisão de serviços em Internet das Coisas

Inclusão de Consultas por Similaridade em SGBDs: Teoria e Prática

Modelos Probabilísticos

05 Redes Peer-2-Peer RDC/ISEL-DEETC-SRT 1

Iam Vita Jabour. O Impacto de Atributos Estruturais na Identificação de Tabelas e Listas em Documentos HTML. Dissertação de Mestrado

ANÁLISE DE BIG DATA E INTELIGÊNCIA ARTIFICIAL PARA A ÁREA MÉDICA

ALGORITMO HÍBRIDO DE OTIMIZAÇÃO GLOWWORM-BOIDS. {oliveira,

Análise estatística multivariada

QEEF-G: Execução Paralela Adaptativa de Consultas Iterativas

Análise de Conglomerados Espaciais Via Árvore Geradora Mínim

Resumo. Introdução História Caracteristicas Exemplos Arquitetura Distribuição Vertical vs Distribuição Horizontal Segurança Conclusão

DISSERTAÇÃO DE MESTRADO

Investigando grids irregulares para localização outdoor em ambientes urbanos

Implementação de um Mecanismo de Indexação para Consultas Avançadas em DHT

Comparação entre Diferentes Implementações de BK-trees para o Problema de Busca por Intervalo

Adriano Medeiros dos Santos. Suporte a Componentes Compostos Para o Middleware SCS. Dissertação de Mestrado

Detecção e Mitigação de Ataque de Negação de Serviço Distribuído em Redes Centradas no Conteúdo.

PROPOSTA DE UMA ARQUITETURA PAR-A-PAR ORGANIZADA POR ÍNDICES. Gabriel Epsztejn

Replicação em sistemas web

Avaliação de Sistemas de Gerenciamento de Reputação P2P para Uso em Ambientes de Computação Ubíqua

GUSTAVO MARIOTTO DE OLIVEIRA

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

Um Repositório Chave-Valor com Garantia de Localidade de Dados. Patrick A. Bungama Wendel M. de Oliveira Flávio R. C. Sousa Carmem S.

Implementação de um Algoritmo para Busca em Redes Peer-to-Peer

Sistemas Distribuídos

Sistemas de Nomes Planos

Transcrição:

MATHEUS SEREZANI NICOLOSI BALANCEAMENTO EM TABELAS HASH DISTRIBUÍDAS SENSÍVEIS À LOCALIDADE LONDRINA PR 2016

MATHEUS SEREZANI NICOLOSI BALANCEAMENTO EM TABELAS HASH DISTRIBUÍDAS SENSÍVEIS À LOCALIDADE Versão Preliminar de Trabalho de Conclusão de Curso apresentado ao curso de Bacharelado em Ciência da Computação da Universidade Estadual de Londrina para obtenção do título de Bacharel em Ciência da Computação. Orientador: Prof. Dr. Daniel dos Santos Kaster LONDRINA PR 2016

Matheus Serezani Nicolosi Balanceamento em tabelas hash distribuídas sensíveis à localidade/ Matheus Serezani Nicolosi. Londrina PR, 2016-27 p. : il. (algumas color.) ; 30 cm. Orientador: Prof. Dr. Daniel dos Santos Kaster Universidade Estadual de Londrina, 2016. 1. Consultas por similaridade. 2. Tabelas hash distribuídas. 3. Funções de hash sensíveis à localidade. I. Daniel dos Santos Kaster. II. Universidade Estadual de Londrina. III. Ciência da Computação. IV. Balanceamento em tabelas hash distribuídas sensíveis à localidade CDU 02:141:005.7 Este trabalho é dedicado às crianças adultas que, quando pequenas, sonharam em se tornar cientistas.

AGRADECIMENTOS

Não vos amoldeis às estruturas deste mundo, mas transformai-vos pela renovação da mente, a fim de distinguir qual é a vontade de Deus: o que é bom, o que Lhe é agradável, o que é perfeito. (Bíblia Sagrada, Romanos 12, 2)

NICOLOSI, S. M.. Balanceamento em tabelas hash distribuídas sensíveis à localidade. 27 p. Trabalho de Conclusão de Curso Versão Preliminar (Bacharelado em Ciência da Computação) Universidade Estadual de Londrina, Londrina PR, 2016. RESUMO Palavras-chave: Consultas por similaridade. Tabelas hash distribuídas. Funções de hash sensíveis à localidade.

NICOLOSI, S. M.. Balancing in locality-sesitive distributed hash tables. 27 p. Final Project Draft Version (Bachelor of Science in Computer Science) State University of Londrina, Londrina PR, 2016. ABSTRACT Keywords: Similarity search. Distributed hash tables. Locality-sensitive hash functions.

LISTA DE ILUSTRAÇÕES

LISTA DE TABELAS

LISTA DE ABREVIATURAS E SIGLAS CAN DHT LSH MAE MAM P2P Content addressable network Distributed hash table Locality-sensitive hashing Método de acesso espacial Método de acesso métrico Peer-to-peer

SUMÁRIO 1 INTRODUÇÃO............................ 19 2 FUNDAMENTAÇÃO........................ 21 2.1 Consultas por similaridade...................... 21 2.2 Funções de distância.......................... 21 2.3 Espaços métricos............................ 21 2.4 Consultas por abrangência e consultas aos k-vizinhos mais próximos................................. 21 2.5 Métodos de acesso........................... 22 2.6 Hashing sensível à localidade.................... 22 2.7 Tabelas hash distribuídas....................... 23 3 CONCLUSÃO............................. 25 REFERÊNCIAS........................... 27

19 1 INTRODUÇÃO Atualmente, o mundo está vivenciando um crescimento acelerado do volume de dados. As tecnologias da informação e comunicação empoderam os usuários, que se tornaram produtores de conteúdo em vez de apenas consumidores. Esses dados são não-estruturados, heterogêneos e variáveis em sua natureza [1]. Devido a disseminação de dispositivos que facilitam a captura e criação de dados em conjunto com sistemas que facilitam o armazenamento e compartilhamento de dados, esse aumento de dados resultou também no surgimento de dados complexos, como coordenadas geoespaciais, sequências de DNA e arquivos de imagem, de música e de vídeo. Como esses tipos de dados geralmente não definem uma relação de ordem, o uso de consultas por similaridade torna-se necessária [2]. As consultas por similaridade representam uma vasta área de pesquisa que apresenta suas próprias oportunidades e desafios. Uma dessas oportunidades é o uso de consultas por similaridade em redes peer-to-peer. Mais especificamente, nas tabelas hash distribuídas (DHTs). Ao usar um método de indexação hashing sensível à localidade (LSH) em combinação com uma DHT, dado o funcionamento das funções de hash sensíveis à localidade, que mantém dados similares próximos uns dos outros na estrutura de dados, e o funcionamento das DHTs, existe a tendência ao desbalanceamento [1]. Esse trabalho insere-se nesse contexto.

21 2 FUNDAMENTAÇÃO 2.1 Consultas por similaridade Uma consulta por similaridade é um tipo de consulta que recupera objetos considerando critérios de similaridade entre pares de objetos, tipicamente calculados por uma função de distância. Os conceitos de funções de distância, espaços métricos, métodos de acesso e os tipos básicos de consultas por similaridade são brevemente apresentados nas seções 2.2, 2.3, 2.4 e 2.4, respectivamente. 2.2 Funções de distância As funções de distância medem a dissimilaridade entre pares de objetos e, em seguida, retornam um valor real não negativo. As funções de distância mais famosas são as da família Minkowski (L p ) e, dentre elas, destacam-se a Manhattan (L 1 ), a euclidiana (L 2 ) e a Chebyshev (L ). As funções da família Minkowski são dadas pela equação 2.1, onde n é a dimensão do espaço e p é um número inteiro [3]. L p (x 1,..., x 2 ) (y 2,..., y 2 ) = p ni=1 x 1 y 1 p (2.1) 2.3 Espaços métricos Um espaço métrico é formalmente definido como um par M = S, δ, onde S é um domínio de dados e δ é uma métrica, isto é, uma função δ : S S R + que expressa a distância entre elementos de S e que satisfaz as seguintes propriedades, para quaisquer s 1, s 2, s 3 S: 1. Identidade: δ (s 1, s 2 ) = 0; 2. Simetria: δ (s 1, s 2 ) = δ (s 2, s 1 ); 3. Não-negatividade: 0 < δ (s 1, s 2 ) < ; 4. Desigualdade triangular: δ (s 1, s 3 ) δ (s 1, s 2 ) + δ (s 2, s 3 ) [2]. 2.4 Consultas por abrangência e consultas aos k-vizinhos mais próximos Uma consulta por abrangência, ou range query (Rq), retorna todos os elementos dissimilares de um elemento de consulta até um limiar de dissimilaridade máximo. Con-

22 sultas por abrangência são definidas por [2] como: seja S um domínio de dados, S S um conjunto de elementos, s q S um elemento de consulta, δ uma função de distância sobre o elemento de S e ε um limiar de dissimilaridade, uma consulta por abrangência é dada por {s i S δ (s q, s i ) ε}. Já as consultas aos k-vizinhos mais próximos, ou k-nearest Neighbors queries (k- NNq), retornam os k elementos mais similares ao elemento da consulta. Consultas aos k-vizinhos mais próximos é definida por [2] como: dado um domínio S, um conjunto de elementos S S, um elemento de consulta s q S, uma função de distância δ sobre o elemento de S e um inteiro k 1, o resultado de uma consulta será K = {s i S s j S K, K = l, δ (s q, s i ) δ (s q, s j )}. 2.5 Métodos de acesso Para realizar uma consulta por similaridade em um conjunto de dados sem algum tipo de indexação, é necessário pesquisar por todo o conjunto, o que pode ser inviável. Por isso, novos métodos de acesso que dão suporte a dados complexos foram propostos: (i) os Métodos de Acesso Espaciais (MAEs), para dados multidimensionais, mas que tendem a degradar com o aumento da dimensionalidade, e; (ii) os Métodos de Acesso Métricos (MAMs), para dados de alta dimensionalidade ou adimensionais (sem dimensionalidade fixa), que relacionam objetos apenas por suas relações de similaridade [4, 2]. 2.6 Hashing sensível à localidade O método de indexação locality-sensitive hashing (LSH), ou hashing sensível à localidade, depende de uma família de funções hash sensíveis à localidade H para mapear objetos de um domínio métrico S, em um espaço D-dimensional (normalmente R d ), para um conjunto enumerável U (normalmente Z) com a seguinte propriedade: a probabilidade de hashes de pontos próximos no espaço métrico colidirem é alta [5]. O LSH é definido por [5] como, dada uma família de funções H de S para U, H é chamada de (r 1, r 2, p 1, p 2 )-sensível para uma função de distância d se, para quaisquer pontos q, p S, tem-se que: se p B (q, r 1 ), então Pr H [h (q) = h (p)] p 1 ; se p / B (q, r 2 ), então Pr H [h (q) = h (p)] p 2, onde B (p, r) denota o cojunto de elementos de S a uma distância r de p. Para uma família de funções de hash sensíveis à localidade ser útil, ela precisa satisfazer as desigualdades p 1 > p 2 e r 1 < r 2 [5].

23 2.7 Tabelas hash distribuídas As distributed hash tables (DHTs), ou tabelas hash distribuídas fornecem um serviço descentralizado de procura, ou lookup, de objetos baseado no modelo de pares chavevalor e, em geral, utilizam uma função de hash para calcular chaves de valores e têm métodos de mapeamento e roteamento bem definidos. As DHTs tornaram-se populares no final da década de 1990 devido, a princípio, a sistemas peer-to-peer (P2P) de compartilhamento de músicas, como o software Napster e a rede Gnutella. Em 2001, quatro propostas foram publicadas quase simultaneamente CAN, Chord, Pastry, e Tapestry, dando início às DHTs estruturadas [6, 7, 8]. Uma DHT estruturada precisa definir 1. como mapear chaves para nós considerando o balanceamento de carga; 2. como encaminhar lookups por uma chave para o nó apropriado e; 3. como construir tabelas de roteamento. Em geral, o mapeamento de chaves para nós é realizado utilizando-se uma função de hash e o encaminhamento é realizado roteando-se os lookups para os nós na tabela de roteamento responsáveis por chaves próximas [8]. Redes P2P, como as DHTs, podem ser usadas como ou em conjunto com estruturas de indexação de dados complexos [9].

3 CONCLUSÃO 25

27 REFERÊNCIAS [1] VILLAÇA, R. da S. et al. Hamming dht e hcube: arquiteturas distribuídas para busca por similaridade. Campinas, SP, 2013. [2] KASTER, D. d. S. Tratamento de condições especiais para busca por similaridade em bancos de dados complexos. Tese (Doutorado) Universidade de São Paulo, 2012. [3] ZEZULA, P. et al. Similarity search: the metric space approach. [S.l.]: Springer Science & Business Media, 2006. v. 32. [4] JR, C. T. et al. Slim-trees: High performance metric trees minimizing overlap between nodes. [S.l.]: Springer, 2000. [5] GIONIS, A. et al. Similarity search in high dimensions via hashing. In: VLDB. [S.l.: s.n.], 1999. v. 99, n. 6, p. 518 529. [6] RATNASAMY, S. et al. A scalable content-addressable network. [S.l.]: ACM, 2001. v. 31. [7] STOICA, I. et al. Chord: A scalable peer-to-peer lookup service for internet applications. ACM SIGCOMM Computer Communication Review, ACM, v. 31, n. 4, p. 149 160, 2001. [8] BALAKRISHNAN, H. et al. Looking up data in p2p systems. Communications of the ACM, ACM, v. 46, n. 2, p. 43 48, 2003. [9] BONGERS, E.; POUWELSE, J. A survey of p2p multidimensional indexing structures. arxiv preprint arxiv:1507.05501, 2015.