Cap. 3 Organização de Ficheiros e Indexação

Cap. 3 Organização de Ficheiros e Indexação If you don t find it in the index, look very carefully through the entire catalogue. -- Sears, Roebuck, and Co., Consumer s Guide, 1897 Abel J.P. Gomes Bibliografia: 1. R. Ramakrishnan and J. Gehrke. Database Management Systems. Addison-Wesley, 2003 (cap.8). 1

1. Objectivos Como é que um DBMS armazena e acede aos dados em disco? Porque é que o custo temporal I/O é tão importante nas operações de bases de dados? Como é que um DBMS organiza os ficheiros de registos de dados em disco para minimizar os custos de I/O? O que é um índice, e porque é que é usado? Qual é a relação entre um ficheiro de registos de dados e um índice que sobre ele é definido? Quais são s as propriedades importantes dos índices? Como é que um índice baseado em hashing funciona, e em que circunstâncias é mais eficaz? Como é que um índice estruturado em árvore funciona, e em que circunstâncias é mais eficaz? Como é que se pode usar índices para optimizar o desempenho 2 para uma dada carga de trabalho?

2. Contexto A abstracção básica dos dados num DBMS é a de uma colecção de registos ou um ficheiro; cada ficheiro consiste numa ou mais páginas. A camada FMA organiza os dados cuidadosamente para suportar acesso rápido a subconjuntos de registos que são alvo de operações específicas. Compreender como os registos estão organizados em ficheiro é essencial para compreender o funcionamento dum sistema de bases de dados. Optimização e Execução de Inquirições Operadores Relacionais Fich. e Métodos de Acesso Gestão de Buffers Gestão de Espaço em Disco DB 3

3. Alternativas na Organização de Ficheiros Existem muitas alternativas, cada uma das quais adequada a situações específicas, mas não a outras: Heap files (unsorted files): adequados quando o acesso varre o ficheiro de alto a baixo para devolver todos os registos (records) nele existentes. Ficheiros Ordenados (sorted files): mais adequados quando se pretende devolver os registos pela ordem estabelecida pela search key, ou quando somente uma gama de registos é necessária. Clustered Files (with Indexes): em breve 4

4. Análise e Modelo de Custos Para tornar a análise mais simples, vamos ignorar os custos de tempo gasto na CPU: B: número de blocos de dados (data blocks) R: número de registos por bloco D: Tempo (médio) para ler ou escrever um bloco de/no disco A medição do número de I/O s de blocos ignora os ganhos de pré-localização e acesso sequencial; portanto, mesmo o custo I/O é só grosseiramente aproximado. Análise do caso médio; é baseada em várias assumpções simplistas. Modelo suficientemente bom para mostrar as tendências no seu todo! 5

4.1 Algumas assumpções feitas na análise Simples inserção e eliminação de registos. Selecção baseada na igualdade - exactamente um one match (what if more or less???). Heap Files: A inserção é sempre feita no fim do ficheiro. Ficheiros Ordenados: Ficheiros compactados após eliminações de registos. Selecções baseadas na chave de pesquisa (search key). 6

4.2 Custo de operações B: número de páginas de dados (data pages) R: número de registos por página D: tempo (médio) para ler/escrever uma página no disco Heap File Ficheiro Ordenado Clustered File Escrutínio (scan) de todos os registos Pesquisa baseada na igualdade Pesquisa baseada na gama Inserção B D 0.5 B D B D 2D B D (log 2 B) D [(log 2 B) + #match pages] D ((log 2 B)+B) D Eliminação 0.5B D + D ((log 2 B)+B) D (porque R,W 0.5) 7

5. Índices Às vezes, queremos devolver registos através da especificação de valores num ou mais campos; por exemplo, Encontrar todos os estudantes do Dept. de Informática. Encontrar todos os estudantes com uma classificação superior a 3 (gpa > 3), assumindo a escala de 0 a 5. Um índice sobre um ficheiro é uma estrutura de dados baseada no disco que torna mais rápidas as selecções feitas a partir de campos-chave de pesquisa (the search key fields). Qualquer subconjunto de campos duma relação pode ser a chave de pesquisa (search key) do índice. Não se deve confundir uma chave de pesquisa (search key) com uma chave (key), pois não tem que ser única. Um índice contém uma colecção de verbetes ou entradas de dados (data entries), e suporta a devolução eficiente de todos os registos com base num valor k da chave de pesquisa. 8

6. Primeira Questão acerca de Índices Que tipos de selecções suportam? Selecções da forma campo <op> constante Selecções basedas na igualdade (op é =) Selecções basedas na gama de valores (op é dos seguintes operadores: <, >, <=, >=, BETWEEN) Selecções mais exóticas: Gamas 2-dimensionais ( este de Berkeley e oeste de Truckee e North of Fresno e South of Eureka ) ou n-dimensional Distâncias 2-dimensionais ( no raio de 2 milhas da Covilhã ) ou n-dimensional Inquirições baseadas em ranking ( 10 restaurantes mais próximos de Berkeley ) Satisfação de expressões regulares, satisfação de cadeias genómicas, etc. Um índice n-dimensional comum: R-tree Suportado por Oracle e Informix Veja-se http://gist.cs.berkeley.edu para mais detalhes sobre 9 este tópico

7. Disrupção dum Índice (Index Breakdown) Um índice suporta que selecções? Representação de verbetes de dados (data entries) no índice i.e., que tipo de informação é que o índice realmente guarda? há 3 alternativas Índices de Chave Simples vs. Índices de Chave Composta Índices baseados em árvore, índices baseados em hashing, outros Índices Aglomerados e Não-Aglomerados (Clustered vs. Unclustered Indexes) 10

8. Alternativas para Verbete de Dados (Data Entry) k* no Índice Três alternativas: registo de dados real (chave com valor k) <k, rid do registo de dados que contém k> <k, lista de rids dos registos de dados que contêm k > A escolha é ortogonal à técnica de indexação. Exemplos of técnicas de indexação: árvores B+, estruturas baseadas em hashing, árvores R, Tipicamente, o índice contém informação auxiliar que direcciona a procura para os verbetes de dados desejados. Podemos ter vários (e diferentes) índices por cada ficheiro de dados da BD. por exemplo, ficheiro ordenado por idade, com um índice hash sobre o salário e um índice em árvore B+ sobre 11 o nome.

8.1 Alternativa 1: Registo de dados real (chave com valor k) Com esta alternativa, a estrutura do índice é a de um ficheiro organizado em registos de dados (à semelhança dos ficheiros ordenados ou heap files). No máximo, só um índice sobre uma dada colecção de registos de dados pode usar a Alternativa 1. Esta alternativa poupa na procura de ponteiros, mas pode ser dispendiosa de manter face às inserções e eliminações de registos. 12

8.2 Alternativas 2 e 3: <k, rid do registo de dados que contém k> <k, lista de rids dos registos que contêm k> Mais fácil de manter do que a Alternativa 1. Se mais do que um índice é necessário para um dado ficheiro de dados, no máximo só um índice pode usar a Alternativa 1; os restantes têm de usar obrigatoriamente a Alternativa 2 ou 3. Alternativa 3 é mais compacta que Alternativa 2, mas conduz a verbetes de dados de tamanho variável mesmo se as chaves de procura são de tamanho fixo. Pior ainda, para listas grandes de rids, os verbetes podem abranger vários blocos! 13

9. Classificação de Índices Clustered vs. unclustered: Se a ordem dos registos de dados é a mesma que, ou é próxima de, a ordem dos verbetes de dados do índice, então temos um clustered index. Um ficheiro pode ser clustered para uma (no máximo) chave de pesquisa. O custo de devolver registos de dados através um índice varia bastante, dependendo de se o índice é clustered ou não! A Alternativa 1 implica ter um índice clustered, mas o contrário não é verdade. 14

9.1 Índices Clustered vs. Unclustered CLUSTERED Suponha que a Alternativa (2) é usada para verbetes de dados, e que os registos de dados são armazenados num heap file. Para construir um índice clustered, ordena-se em primeiro lugar o heap file (com algum espaço livre em cada bloco para eventuais inserções futuras de dados). Blocos em overflow podem ser necessários para operações de inserção. (Daí, a ordem de registos de dados ser próxima, mas não idêntica, à ordem de ordenação do heap file.) Index entries direct search for data entries UNCLUSTERED Data entries (Index File) (Data file) Data entries Data Records Data Records 15

9.2 Índices Clustered vs. Unclustered (cont.) Quais são as vantagens/desvantagens? Os prós dos índices clustered Eficientes para pesquisas baseadas em gamas de valores (range searches) Podem facilitar alguns tipos de compressão de dados Possíveis benefícios resultantes da localidade dos dados (dados relacionados?)??? Os contras dos índices clustered Custosos de manter (face a actualização de dados e avessos à reorganização) 16

9.3 Custo de operações B: The number of data pages R: Number of records per page D: (Average) time to read or write disk page Heap File Sorted File Clustered File Scan all records BD BD 1.5 BD Equality Search 0.5 BD (log 2 B) * D (log F 1.5B) * D Range Search BD [(log 2 B) + #match pg]*d [(log F 1.5B)+ #match pg]*d Insert 2D ((log 2 B)+B)D ((log F 1.5B)+1)* D Delete 0.5BD + D ((log 2 B)+B)D (because R,W 0.5) ((log F 1.5B)+1)* D 17

10. Chaves de Pesquisa Compostas Pesquisa sobre uma combinação de campos. Inquirição de igualdade: Todo o valor dum campo é igual a um valor constante; e.g.: wrt <age,sal> index: age=20 e sal =75 Inquirição de gama: algum valor dum campo não é constante; e.g.: age > 20; ou age=20 e sal > 10 Verbetes de dados no índice ordenados por chave de pesquisa para suportar inquirições de gama. Ordem lexicográfica. Como o dicionário, mas sobre campos, não sobre letras! Exemplos de índices de chave composta usando ordem lexicográfica 11,80 12,10 12,20 13,75 <age, sal> 10,12 20,12 75,13 80,11 <sal, age> name age sal bob cal Data entries in index sorted by <sal,age> 12 11 joe 12 10 80 20 sue 13 75 Data records sorted by name <age> <sal> 18 11 12 12 13 10 20 75 80 Data entries sorted by <sal>

Sumário A camada de ficheiros gere o acesso a registos em páginas. Os formatos de registos e de páginas dependem do comprimento ser fixo ou variável. A gestão do espaço livre é uma questão importante. O formato de página entalhada (slotted page format) suporta registos de comprimento variável e permite que os registos se movam dentro de cada página. Existem muitas formas de organizar a estrutura dum ficheiro, sendo cada uma apropriada para certos casos. Se as inquirições de selecção são frequentes, ordena-se o ficheiro ou constrói-se um índice. Índices em hashing só são bons para pesquisa de igualdade. Ficheiros ordenados (sorted files) e índices estruturados em árvore (tree-based indexes) adequam-se melhor a pesquisas de gama; também são bons para pesquisas de igualdade de valores. (Ficheiros raramente se mantêm ordenados na prática; o índice estruturado em árvore B+ é melhor.) Um índice é uma colecção de verbetes de dados mais uma forma de encontrar rapidamente verbetes com valores 19 específicos de chave.

FIM DE CAPÍTULO Sumário (cont.) Um índice é uma colecção de verbetes de dados mais uma forma de encontrar rapidamente verbetes com valores específicos de chave. Verbetes de dados no índice podem ser registos de dados reais, pares <key, rid>, ou pares <key, rid-list>. A escolha é ortogonal à estrutura de indexação (i.e., tree, hash, etc.). Normalmente, temos vários índices sobre um dado ficheiro de registos de dados, cada um com uma chave de pesquisa diferente. Os índices podem ser classificados como clustered vs. unclustered As diferenças entre eles têm consequências importantes na utilidade/desempenho. As relações no catálogo armazenam informação acerca de relações, índices e vistas. 20