PVFS-Store - Um repositório chave-valor com garantia de localidade

paper:66 PVFS-Store - Um repositório chave-valor com garantia de localidade Ricardo M. Maeda 1 Orientadora: Carmem Satie Hara 1 1 PPGInf - Programa de Pós-Graduação em Informática Departamento de Informática Universidade Federal do Paraná Caixa Postal 19.081 81.531-990 Curitiba PR Brasil {rmmaeda, carmem}@inf.ufpr.br Nível: Mestrado Ingresso no programa: Março/2013 Previsão de conclusão: Março/2015 Etapas concluídas: Créditos em disciplinas Resumo. Há uma demanda crescente por soluções distribuídas de armazenamento, que preservem a localidade dos dados nos servidores espalhados geograficamente. Grande parte das soluções NoSQL distribuídas são baseadas em uma DHT e possuem pouco ou nenhum controle sobre a colocação dos dados. A garantia da localização é importante para permitir que as informações sejam posicionadas próximas às aplicações consumidoras e agrupadas semanticamente para acessos otimizados. Este trabalho propõe o PVFS-Store, um sistema de armazenamento distribuído baseado no modelo chave-valor, cujo objetivo é permitir o controle da localidade dos dados pela aplicação. Palavras-chaves. Armazenamento distribuído em nuvem, sistemas de arquivos distribuídos, repositório chave-valor, NoSQL, proximidade dos dados, localidade dos dados 332

1. Introdução O crescimento vertiginoso no volume de dados manipulados atualmente vem trazendo desafios consideráveis no desenvolvimento de soluções escaláveis e globalmente distribuídas. Estima-se que até 2020 a quantidade de informação digital passará de 130 exabytes (cálculo estimado em 2005) para 40.000 exabytes gerados por ano. Aproximadamente 40% desta informação será armazenada na nuvem 1. Manter a escalabilidade e a consistência dos dados distribuídos globalmente são desafios crescentes e acompanhados pela comunidade científica. Implementações tradicionais de bases de dados distribuídas estudadas nas últimas décadas não apresentaram escalabilidade aceitável. Isso se deve em grande parte aos impactos em desempenho causados pelos custos da sincronização e tratamento de falhas. Tais implementações acabaram não sendo utilizadas amplamente na indústria [Agrawal et al. 2010], o que resultou no aparecimento de soluções projetadas para escalar horizontalmente e prover operações simples de leitura/escrita. Estas novas soluções são referenciadas como bases de dados NoSQL (Not Only SQL). A maior parte destas soluções NoSQL optou pelo armazenamento baseado em DHT (Distributed Hash Table) [Wehrle et al. 2005]) como mecanismo de distribuição e localização dos dados pelo fato de proverem escalabilidade, tolerância a falhas e alta disponibilidade. A distribuição é fundamentada através de uma função de espalhamento, o que torna o controle da localidade dos dados pela aplicação muito baixo ou praticamente nulo. Em sistemas distribuídos geograficamente a proximidade das informações com as aplicações usuárias é fator essencial para evitar a alta latência de redes WAN (Wide Area Network) [Corbett et al. 2013]. Devido à DHT ser desenvolvida para dar suporte a consultas de correspondência exata da chave, ao efetuar buscas baseadas em intervalos ou conjunto de valores, múltiplos servidores acabam sendo acessados. Métodos de indexação sobre a DHT foram propostos [Tang et al. 2010], porém o intuito destas abordagens é possibilitar buscas por intervalo e não diminuir o acesso a múltiplos servidores. Outra alternativa é a adoção de funções de espalhamento que mantêm a ordem lexicográfica das chaves como encontrado no Scalaris 2. Uma outra consequência da adoção de uma DHT é o fato da alocação dos dados ser realizada de maneira aleatória. Isto faz com que a aproximação de dados afins não seja considerada. O agrupamento de dados relacionados já é explorado nos SGBDs relacionais tradicionais, através de índices cluster e particionamento por intervalos para aproximação física dos blocos de dados. Em sistemas distribuídos globalmente, o mesmo conceito de agrupar informações semanticamente próximas em um mesmo servidor também é benéfica. Quando as informações acessadas em conjunto são agrupadas, a quantidade de servidores envolvidos na operação é minimizada, evitando transações distribuídas com protocolos de alto custo computacional [Shute et al. 2013]. Permitir o controle sobre a localidade dos dados é, portanto, essencial para a escalabilidade e desempenho da solução em ambientes distribuídos geograficamente. O objetivo deste trabalho é implementar um repositório distribuído baseado em um modelo 1 http://idcdocserv.com/1414 2 https://code.google.com/p/scalaris 333

chave-valor, cuja localidade seja garantida e controlada pela aplicação. A ideia primária é avaliar os benefícios do agrupamento de informações correlatas em um mesmo servidor e da proximidade dos dados com a aplicação consumidora. Este trabalho está organizado da seguinte maneira: o capítulo 2 aborda os trabalhos relacionados, o capítulo 3 descreve a proposta de implementação deste trabalho e por fim o capítulo 4 apresenta as considerações finais. 2. Trabalhos Relacionados Entre os sistemas de armazenamento distribuído presentes na literatura e relacionados com este trabalho, existem os sistemas de arquivos distribuídos, as bases de dados relacionais distribuídas e os sistemas NoSQL. Uma importante característica destas soluções é a forma como os dados são dispersos. Em geral, elas utilizam uma distribuição homogênea e uniforme dos dados. Os sistemas de arquivos distribuídos apresentam uma estrutura não centralizada e os dados são dispersos em um conjunto de servidores, que compõem o sistema de armazenamento, aumentando consideravelmente a capacidade computacional da solução. Os clientes e aplicações usuárias não possuem acesso direto à estrutura de disco subjacente e a interação é realizada através de um protocolo pré-estabelecido. A dispersão dos arquivos é transparente e é encargo da solução distribuída localizar o arquivo e transportá-lo até a aplicação que solicitou a informação. Soluções de código aberto como HDFS (Hadoop Distributed File System) [Shvachko et al. 2010], Ceph [Weil et al. 2006] e PVFS [Ross et al. 2000], ou proprietário como GFS (Google File System) [Ghemawat et al. 2003] não são em essência estruturados para dar ciência à aplicação sobre onde o arquivo ou um fragmento dele será armazenado. O HDFS e o GFS não implementam meios efetivos de alocação dos arquivos. Eles dividem os arquivos em fragmentos e estes são alocados em servidores com maior disponibilidade de recursos (menor carga no caso do HDFS ou menor uso de armazenamento no caso do GFS). O Ceph é um sistema de armazenamento distribuído baseado em objetos, que são espalhados por uma função de dispersão sobre um número de identificação associado a cada objeto. Este sistema provê uma flexibilidade maior, quando comparado às outras soluções, pois o administrador pode definir políticas de colocação dos objetos na estrutura do sistema distribuído (por exemplo, discos, servidores, datacenters, etc). O PVFS é proposto para fragmentação dos arquivos e distribuição uniforme dos fragmentos para desempenho. Ele possui uma forma efetiva de garantia da colocação do arquivo em determinado servidor. Esta colocação é definida através da interface do PVFS, na qual é possível especificar o nome do servidor no momento da criação do arquivo. Isto motivou a sua utilização como repositório de armazenamento, para estudo deste trabalho de mestrado. Para os sistemas NoSQL, o modelo de armazenamento chave-valor é encontrado nas soluções MemcacheDB 3 e Amazon DynamoDB 4. Elas utilizam DHT como mecanismo de dispersão e o fato da colocação das informações considerar uma função de espalhamento (hash), o posicionamento dos dados em determinado servidor não é garantido. Outros sistemas baseados em chave-valor, 3 http://memcachedb.org 4 http://aws.amazon.com/dynamodb 334

com noções de localidade para distribuição dos dados, são explorados nos trabalhos [Ribas et al. 2011, Arnaut et al. 2011, Schroeder et al. 2012] e estão presentes em soluções comerciais envolvendo servidores espalhados geograficamente, como Cassandra [Lakshman and Malik 2010] e Spanner [Corbett et al. 2013]. A localidade dos dados nestes repositórios distribuídos tem sido proposta com o intuito de permitir a proximidade das aplicações com seus dados, e minimizar as requisições e controle de acesso quando múltiplos servidores são necessários para atender uma consulta do usuário. Estas soluções, que adotaram noções de localidade na distribuição dos dados, são baseadas em um modelo, em que a aplicação utiliza a ordem lexicográfica das chaves para organização das informações. Ao utilizá-las para armazenamento sobre um sistema DHT com distribuição baseada em intervalo, a criação das chaves com prefixos comuns permite à aplicação o agrupamento dos dados em servidores próximos ou no mesmo servidor. Porém não há garantias de que chaves similares necessariamente serão alocadas em um único servidor. As soluções existentes não proveem garantias de localidade na alocação das informações. As soluções que mais se aproximam em atender este requisito distribuem os dados agrupando pela ordem lexicográfica das chaves. Esta abordagem obriga a aplicação a modificar ou adequar as chaves, adicionando prefixos a elas para possibilitar seus agrupamentos e, apesar de as aproximarem, não há garantias na localidade delas no mesmo servidor. A ausência de uma solução distribuída com suporte a localidade dos dados motivou a proposta do PVFS-Store, apresentado a seguir. 3. PVFS-Store PVFS-Store é uma proposta de implementação de repositório de dados distribuído, cujo armazenamento possui como base o modelo chave-valor. Este modelo é utilizado como estrutura de armazenamento físico para grande parte das soluções NoSQL citadas na seção 2 devido a sua flexibilidade, simplicidade e escalabilidade. O PVFS-Store permite a alocação de um conjunto de pares chave-valor agrupados em uma única estrutura, cuja localidade é ministrada de maneira controlada e orientada pela aplicação usuária do sistema. Esta estrutura é denominada bucket e ela representa a unidade básica de armazenamento e transferência da solução. 3.1. Modelo A arquitetura do sistema satisfaz a separação em níveis dos SGBDs tradicionais. A camada física descreve as estruturas físicas do banco de dados e é implementada sobre o repositório distribuído, PVFS-Store. A camada lógica abstrai os detalhes físicos de armazenamento. Ela se concentra em descrever como os dados são estruturados e como eles são apresentados para a aplicação. Para garantir a compatibilidade com outras soluções NoSQL, o modelo chave-valor é adotado nesta camada. Uma aplicação sobre o PVFS-Store consegue acessar este repositório, através de uma interface de manipulação dos atributos chave-valor. Ela inclui além destes atributos, alterações e adições de métodos para prover suporte ao bucket e ao servidor: create bucket(bucket, servidor): criação e inicialização do bucket em um servidor do repositório. drop bucket(bucket): remoção do bucket juntamente com as chaves. 335

put pair(chave, valor, bucket): inclusão de um par chave-valor ao bucket. get pair(chave): obtenção de um valor a partir de uma chave. rem pair(chave): exclusão de um par chave-valor a partir da chave. Tais instruções são similares às encontradas nos sistemas DHT, com uma importante diferença de que a localidade dos registros é controlada pela aplicação, através dos métodos de criação de um bucket e inclusão de um par chave-valor. Além disso, uma interface e repositório adicionais serão desenvolvidos para armazenar as informações do metadado. put md(chave, bucket): inclusão no metadado da chave e do bucket, onde ela será inserida. Este método será chamado toda vez que a função put pair for executada. get md(chave): obtenção do bucket, onde está localizada a chave. Ele será executado nas chamadas à função get pair. rem md(chave): exclusão da chave do metadado. Sempre que um par chave-valor for removido através do rem pair esta instrução será executada. A disposição do PVFS-Store em relação à aplicação e ao sistema distribuído pode ser visualizado na figura 1. Entre a aplicação e a interface do PVFS-Store as informações sobre bucket, chave e valor são utilizadas na interação com o repositório de dados. Já a comunicação do PVFS-Store com o PVFS utiliza uma API do sistema de arquivos distribuído e possui como unidade o bucket. Figura 1. Arquitetura do PVFS-Store Na implementação do PVFS-Store, um bucket é fisicamente um arquivo no sistema de arquivos PVFS. Todo bucket está associado a um servidor, necessário para a colocação deste arquivo na solução distribuída. As informações sobre buckets e servidores são armazenadas em uma estrutura de dados compondo o metadado do PVFS-Store. O metadado é responsável pela associação de uma chave ao bucket e ao servidor, nos quais ela está armazenada. A dispersão e localização dos dados são controladas pela aplicação através deste metadado, ao invés de uma DHT. Cada bucket possui no cabeçalho meta-informações, como número máximo de chaves, um mapa de bits para controle do espaço livre e uma estrutura de tamanho fixo contendo as chaves existentes no bucket. Os valores associados às chaves são salvos justapostos, no corpo do bucket, após o cabeçalho. 336

O PVFS-Store está sendo desenvolvido sobre o sistema de arquivos distribuídos PVFS. 3.2. Estudo de Caso Para avaliação do PVFS-Store como um repositório distribuído será implementado um módulo de armazenamento customizado do MySQL 5 (MySQL Custom Storage Engine), que utiliza o PVFS-Store como armazenamento físico. A escolha do MySQL se deve à sua arquitetura modular, na qual é possível acoplar módulos de armazenamento de maneira transparente para a aplicação. Como base deste estudo de caso serão utilizadas abordagens semelhantes às existentes em [Ribas et al. 2011] e [Chang et al. 2008] para mapeamento das relações em pares chave-valor. O módulo de armazenamento MySQL sobre o PVFS-Store será responsável por este mapeamento. Todas as operações existentes na base de dados relacional deverão ser convertidas para instruções do repositório chave-valor. Desta forma, tuplas deverão ser mapeadas para chave-valor no momento de uma operação de inserção e de forma inversa ao obtê-las. Outras aplicações sobre o PVFS-Store podem ser desenvolvidas. O modelo proposto de chave-valor com garantia de localidade (por meio de buckets) permite utilizá-lo como repositório de uma aplicação NoSQL ou até implementações mais complexas de SGBD sobre ele, que adotem fragmentações horizontais (por linhas) ou verticais (por colunas). Como validação da proposta deste trabalho e realização de experimentos, a solução será comparada a um armazenamento sobre uma DHT, cuja distribuição é uniforme e homogênea. 4. Considerações Finais Este trabalho propõe o desenvolvimento de uma solução distribuída armazenada sobre um repositório chave-valor e um metadado para localização das chaves nos respectivos buckets. Esta solução pretende avaliar os impactos do controle da localidade dos dados em um ambiente distribuído e compará-la com uma abordagem que não leva em consideração a localidade. O PVFS-Store possibilita à aplicação a alocação exata em um determinado servidor das tuplas no repositório distribuído. As soluções atuais possuem pouco ou nenhum controle sobre a colocação das informações nos servidores e implementam mecanismos de distribuição uniforme dos dados ou baseados em ordenação lexicográfica. Com a abordagem proposta é possível otimizar aplicações distribuídas globalmente, aproximando os dados das aplicações usuárias. O agrupamento das informações semanticamente relacionadas evita o acesso a múltiplos servidores e ajuda a diminuir a incidência de transações distribuídas. Portanto, é esperado que a distribuição controlada pela aplicação traga benefícios em uma rede distribuída geograficamente. O repositório PVFS-Store e seu metadado estão sendo implementados sobre um ambiente em nuvem. Para a validação da proposta será desenvolvido um módulo de armazenamento MySQL sobre o PVFS-Store. 5 http://www.mysql.com 337

O principal desafio na implementação deste trabalho é o desenvolvimento de um metadado descentralizado. Além disso, a especificação de uma interface chave-valor com suporte a localidade dos dados e o seu desenvolvimento sobre um repositório distribuído são desafios importantes na implementação desta solução. Referências Agrawal, D., El Abbadi, A., Antony, S., and Das, S. (2010). Data management challenges in cloud computing infrastructures. In Databases in Networked Information Systems. Arnaut, D. E., Schroeder, R., and Hara, C. S. (2011). Phoenix: A relational storage component for the cloud. In Cloud Computing (CLOUD), 2011 IEEE International Conference on. Chang, F., Dean, J., Ghemawat, S., Hsieh, W. C., Wallach, D. A., Burrows, M., Chandra, T., Fikes, A., and Gruber, R. E. (2008). Bigtable: A distributed storage system for structured data. Corbett, J. C., Dean, J., Epstein, M., Fikes, A., Frost, C., Furman, J., Ghemawat, S., Gubarev, A., Heiser, C., Hochschild, P., et al. (2013). Spanner: Google s globally distributed database. Ghemawat, S., Gobioff, H., and Leung, S.-T. (2003). The google file system. In ACM SIGOPS Operating Systems Review. Lakshman, A. and Malik, P. (2010). Cassandra: a decentralized structured storage system. Ribas, E. A., Uba, R., Reinaldo, A. P., et al. (2011). Layering a dbms on a dht-based storage engine. Ross, R. B., Thakur, R., et al. (2000). Pvfs: A parallel file system for linux clusters. In in Proceedings of the 4th Annual Linux Showcase and Conference. Schroeder, R., dos Santos Mello, R., and Hara, C. S. (2012). Affinitybased xml fragmentation. In WebDB. Shute, J., Vingralek, R., Samwel, B., Handy, B., Whipkey, C., Rollins, E., Oancea, M., Littlefield, K., Menestrina, D., Ellner, S., et al. (2013). F1: A distributed sql database that scales. Shvachko, K., Kuang, H., Radia, S., and Chansler, R. (2010). The hadoop distributed file system. In Mass Storage Systems and Technologies (MSST), 2010 IEEE 26th Symposium on. Tang, Y., Zhou, S., and Xu, J. (2010). Light: a query-efficient yet low-maintenance indexing scheme over dhts. Knowledge and Data Engineering, IEEE Transactions on, 22(1):59 75. Wehrle, K., Götz, S., and Rieche, S. (2005). 7. distributed hash tables. In Peer-to-Peer systems and applications. Weil, S. A., Brandt, S. A., Miller, E. L., Long, D. D. E., and Maltzahn, C. (2006). Ceph: A scalable, high-performance distributed file system. In Proceedings of the 7th Symposium on Operating Systems Design and Implementation. 338