Cap. 5 Indexação Baseada em Hashing

Transcrição

1 Cap. 5 Indexação Baseada em Hashing Not cahos-like, together crushed and bruised, But, as the world harmoniously confused: Where order in variety we see. -- Alexander Pope Abel J.P. Gomes Bibliography: 1. R. Ramakrishnan and J. Gehrke. Database Management Systems. Addison-Wesley, 003 (cap.11). 1

2 1. Objectivos Intuitivamente, o que é que está por detrás dos índices baseados em hashing? Porque é que são particularmente adequados para pesquisas por igualdade, mas inúteis para selecções por gama? O que é o hashing extensível? Como é que são feitas as operações de pesquisa, inserção e eliminação? O que é o hashing linear? Como é que são feitas as operações de pesquisa, inserção e eliminação? Quais são as semelhanças e diferenças entre hashing extensível e hashing linear?

3 . Introdução A ideia base é usar uma função de hashing. Esta função mapeia um valor da chave de pesquisa (atributo duma tabela) num registo ou balde (bucket) de registos. Como para qualquer índice, há 3 alternativas para os verbetes de dados k*: registo de dados real (chave com valor k) <k, rid do registo de dados respectivo> <k, lista de rids dos registos de dados respectivo > Índices baseados em hashing são melhores para pesquisas por igualdade. Não suportam pesquisas por gama. Existem técnicas estáticas e dinâmicas de hashing; compromissos similares aos de ISAM vs. árvores B+. 3

4 3. Hashing Estático Um balde (bucket) é uma unidade de armazenamento que contém um ou mais registos (um balde é tipicamente um bloco do disco). Numa organização de ficheiro em hashing, obtemos o balde dum registo a partir do valor da sua chave de pesquisa. Mais concretamente, o balde é obtido através do cálculo da função de hash para aquela chave de pesquisa. A função de hash h é uma função do conjunto de todos os valores da chave K para o conjunto dos endereços de todos os baldes B. A função de hash é usada para localizar registos para as operações de acesso, inserção, bem como eliminação. Registos com diferentes valores de chave podem ou não ser mapeados para o mesmo balde; daí que o balde inteiro tem de ser pesquisado sequencialmente para localizar um registo específico. 4

5 3. Hashing Estático (cont.1) #de páginas primárias é fixo; as páginas são alocadas sequencialmente e nunca são desalocadas; páginas de transbordo podem ser necessárias. h(key) mod B = balde ao qual o verbete de dados com chave key pertence. (B = #de baldes) key h N-1 primary bucket pages... overflow pages 5

6 3. Hashing Estático(cont.) Baldes contêm verbetes de dados. A função de hash actua sobre a chave de pesquisa respeitante a um dos atributos do registo r. Fornece valores na gama 0,...,B-1. l l h(key)=(a*key+b) funciona normalmente bem. a e b são constantes; muito se sabe sobre como afinar h. Longas cadeias de transbordo podem desenvolver-se e degradar o desempenho. Hashing extensível e hashing linear: técnicas dinâmicas para consertar este problema. 6

7 4. Exemplo: inserções e transbordos Assuma-se que temos registos/balde e 4 baldes numerados de 0 a 3. A inserção do verbete de dados e conduz à criação de uma página de transbordo para baldes, como se ilustra na figura em baixo: INSERT: h(a) = 1 h(b) = h(c) = 1 h(d) = 0 h(e) = d a c b e 7

8 4. Exemplo: eliminações A eliminação de um verbete de dados c após e e f conduz à eliminação do balde de transbordo que contém o verbete de dados d ; d é então transladado para o balde primário 1. DELETE: e f c 0 1 a b c d d e 3 f g maybe move g up 8

9 5. Regra de Ouro Tente manter a utilização do espaço entre 50% e 80%! Utilização = # chaves usadas total # chaves utilizáveis Se <50%, há espaço desperdiçado Se > 80%, transbordos tornam-se significativos; depende de quão boa é a função de hashing & do # chaves/balde 9

10 6 Como é que se lida com o crescimento? Transbordos e reorganizações Hashing dinâmico: l Extensível l Linear 10

11 7 Hashing Extensível Situação: balde (página primária) fica cheio. Porque não re-organizar o ficheiro duplicando o # de baldes? Ler e escrever todas as páginas é dispendioso! Ideia: use directoria de ponteiros para baldes, duplique # de baldes através da duplicação da directoria, particionando justamente o balde que transbordou! Uma directoria é muito mais pequena que um ficheiro, de modo que duplicá-la é muito menos dispendioso. Só uma página de verbetes de dados é particionada. Não há lugar a páginas de transbordo! O truque reside em como a função de hashing é ajustada! 11

12 7.1 Hashing extensível: exemplo Directoria é um array de tamanho 4. Para encontrar o balde de k, tomase a última global depth do # de bits de h(k). LOCAL DEPTH GLOBAL DEPTH * 1* 3* 16* 1* 5* 1* 13* Bucket A Bucket B Por exemplo: se h(k)=5 10 =101, o verbete está no balde apontado por DIRECTORY 10* 15* 7* 19* Bucket C Bucket D DATA PAGES 1

13 7. Hashing extensível: Inserting Inserção: se balde cheio, particione-o (crie nova página e re-distribua). Se necessário, duplique a directoria. (Como veremos, particionar um balde nem sempre requer duplicação; o que podemos dizer se compararmos a global depth com a local depth do balde dividido.) Por exemplo: insira h(k)=0 (provoca duplicação) LOCAL DEPTH GLOBAL DEPTH 3*16* Bucket A LOCAL DEPTH GLOBAL DEPTH 3 3* 16* Bucket A DIRECTORY 1* 5* 1*13* 10* 15* 7* 19* 4* 1* 0* Bucket B Bucket C Bucket D Bucket A (`split image' of Bucket A) DIRECTORY 1* 5* 1*13* 10* 15* 7* 3 19* 4* 1* 0* Bucket B Bucket C Bucket D Bucket A (`split 13 image' of Bucket A)

14 FIM DE CAPÍTULO Não foi ensinado o hashing linear! Sumário Índices baseados em hashing: são melhores para pesquisas por igualdade; não suportam pesquisas por gama. Hashing estático pode conduzir a longas cadeias de transbordo. Hashing extensível evita páginas de transbordo, o que se consegue através da partição dum balde cheio quando se tenta adicionar-lhe um novo verbete de dados. (Duplicados podem requerer páginas de transbordo.) l Directoria para registar baldes é duplicada periodicamente. l Pode tornar-se grande com dados enviezados ; I/O adicionais se estes dados não cabem na memória principal. 14