PERFORMANCE EVALUATION OF A MONGODB AND HADOOP PLATFORM FOR SCIENTIFIC DATA ANALYSIS M.Govindaraju and L. Ramakrishnan



Documentos relacionados
BIG DATA: UTILIZANDO A INTERNET PARA TOMADA DE DECISÕES

Consistência Eventual - Sistemas Distribuidos e Tolerância a Falhas

AN IN-DEPTH STUDY OF MAP REDUCE IN CLOUD ENVIRONMENT. Sistemas Distribuídos e Tolerância a Falhas Nuno Garcia m6284, Tiago Carvalho m6294

Leandro Ramos RAID.

IMPLEMENTAÇÃO DE SOCKETS E THREADS NO DESENVOLVIMENTO DE SISTEMAS CLIENTE / SERVIDOR: UM ESTUDO EM VB.NET

Introdução ao Modelos de Duas Camadas Cliente Servidor

Tipos de Computadores

Bases de Dados Relacional/Objeto e NoSQL. Cristina C. Vieira Departamento de Engenharia Eletrónica e Informática

Instituto Superior de Engenharia do Porto Administração de Sistemas Informáticos I Clusters

UFRJ IM - DCC. Sistemas Operacionais I. Unidade IV Gerência de Memória Secundária. Prof. Valeria M. Bastos 18/06/2012 Prof. Antonio Carlos Gay Thomé

BIG DATA INTRODUÇÃO. Humberto Sandmann

Gerência de Redes. Arquitetura de Gerenciamento.

EAGLE TECNOLOGIA E DESIGN CRIAÇÃO DE SERVIDOR CLONE APCEF/RS

HadoopDB. Edson Ie Serviço Federal de Processamento de Dados - SERPRO

REDE DE COMPUTADORES

Capítulo 3. Avaliação de Desempenho. 3.1 Definição de Desempenho

Estratégia para dentificação dos fatores de maior impacto de aplicações Mapreduce

4 Um Exemplo de Implementação

Universidade Federal de Goiás Ciências da Computação Sistemas Operacionais 2

AULA 5 Sistemas Operacionais

Um cliente de cada vez:

CASE STUDY FOR RUNNING HPC APPLICATIONS IN PUBLIC CLOUDS

Sistemas de Bases de Dados

Sistemas Distribuídos. Professora: Ana Paula Couto DCC 064

Arquitetura de Computadores. Tipos de Instruções

Processos e Threads (partes I e II)

Hoje é inegável que a sobrevivência das organizações depende de dados precisos e atualizados.

Comunicação Inter-Processos. Prof. Adriano Fiorese. Conceitos Iniciais

Servidores Virtuais. Um servidor à medida da sua empresa, sem investimento nem custos de manutenção.

Níveis de RAID - RAID 0

Automação de Locais Distantes

Sistemas de Ficheiros. 1. Ficheiros 2. Directórios 3. Implementação de sistemas de ficheiros 4. Exemplos de sistemas de ficheiros

Arquiteturas Java Pragmá1cas para usar Big Data na Nuvem. Fabiane Bizinella Nardon Fernando Babadopulos

Sistema de Arquivos EXT3

Engenharia de software 2011A. Trabalho sobre

Evaluating the Impact of Undetected Disk Errors in RAID Systems. Apresentado por: Ivo Lopes e Pedro Pinho

Prof. Daniela Barreiro Claro

Sistemas Distribuídos: Conceitos e Projeto Threads e Migração de Processos

Gravação da quantidade de expostos por grupo homogêneo

Capacidade = 512 x 300 x x 2 x 5 = ,72 GB

Sistemas de Informação. Sistemas Operacionais 4º Período

4) Abaixo está representado o nó_i do arquivo SO.txt em um sistema UNIX.

SISTEMA DE ARQUIVOS. Instrutor: Mawro Klinger

Hadoop - HDFS. Universidade Federal de Goiás Ciência da Computação

Escalonamento no Linux e no Windows NT/2000/XP

Quarta-feira, 09 de janeiro de 2008

SISTEMAS OPERACIONAIS

Prof. Wilton O. Ferreira Universidade Federal Rural de Pernambuco UFRPE 1º Semestre / 2012

Storm Processamento e análise real time para Big Data 7/24/12 Fabio Velloso

RAID Redundat Arrays of Inexpensive Disks

Comparativo de desempenho do Pervasive PSQL v11

Checklist de Projeto de Data Warehouse

3 Um Framework Orientado a Aspectos para Monitoramento e Análise de Processos de Negócio

Desenvolvimento Cliente-Servidor 1

O que é RAID? Tipos de RAID:

Tecnologia de Redes de Computadores - aula 5

Evolução na Comunicação de

Organização de Computadores 1

implementação Nuno Ferreira Neves Faculdade de Ciências de Universidade de Lisboa Fernando Ramos, Nuno Neves, Sistemas Operativos,

Programação de Sistemas

Udesc/Ceplan Bacharelado em Sistemas de Informação Sistemas Operacionais. Prof. Alexandre Veloso

Aula 27 - Agendamento de Tarefas (CRONTAB)

A memória é um recurso fundamental e de extrema importância para a operação de qualquer Sistema Computacional; A memória trata-se de uma grande

Gerenciador de Log. Documento Visão. Projeto Integrador 2015/2. Engenharia de Software. Versão 2.0. Engenharia de Software

Sistema Operacional Correção - Exercício de Revisão

Sistemas Operacionais. Conceitos de um Sistema Operacional

Fundamentos de Banco de Dados

O que é Grid Computing

Computação no Alice e grid. Alexandre Suaide IF-USP

Arquitetura de Banco de Dados

RAID. Redundant Array of Independent Drives. Conjunto Redundante de Discos Independentes

SERVIÇO DE ANÁLISE DE REDES DE TELECOMUNICAÇÕES APLICABILIDADE PARA CALL-CENTERS VISÃO DA EMPRESA

Administração de Sistemas GNU/Linux

Guia do Demoiselle Audit Demoiselle Audit Paulo Gladson Ximenes Pinheiro Clóvis Lemes Ferreira Júnior

Estratégias Avançadas com

Disciplina: Introdução à Engenharia da Computação

UFG - Instituto de Informática

E N AT O M O L I N A T O T H

Esta dissertação apresentou duas abordagens para integração entre a linguagem Lua e o Common Language Runtime. O objetivo principal da integração foi

Exercícios. Exercício 1

Análise Comparativa entre Provedores de Internet 3G, no Estado do Acre.

AULA 16 - Sistema de Arquivos

Programador/a de Informática

ESTUDO DE VIABILIDADE. Santander, Victor - Unioeste Aula de Luiz Eduardo Guarino de Vasconcelos

Introdução aos Bancos de Dados Não-Relacionais. Mauricio De Diana (mestrando) Marco Aurélio Gerosa (orientador)

Banco de Dados I. Apresentação (mini-currículo) Conceitos. Disciplina Banco de Dados. Cont... Cont... Edson Thizon

Tópicos Especiais em Redes de Telecomunicações

Disciplina de Banco de Dados Introdução

ANGELLIRA RASTREAMENTO SATELITAL LTDA. Sistema LIRALOG. Manual de instalação e atualização TI 30/07/2014

Sistemas de Arquivos NTFS, FAT16, FAT32, EXT2 e EXT3

Serviços de Consultoria Sabre Travel Network

Tecnologia de Sistemas Distribuídos Capítulo 8: Sistemas de Ficheiros Distribuídos Paulo Guedes

(Monitor de referências) olicy nforcement oint. olicy ecision oint

Transcrição:

PERFORMANCE EVALUATION OF A MONGODB AND HADOOP PLATFORM FOR SCIENTIFIC DATA ANALYSIS M.Govindaraju and L. Ramakrishnan Alfredo Fernandes / José Fernandes

6. Avaliação Nesta secção é apresentada as avaliações de performance para quantificar as diferenças mongohadoop As experiencias foram realizadas 3 vezes Os resultados aqui apresentados correspondem à média dos valores obtidos Checkpoints de cada segundo até intervalos de 5 segundos

6) Avaliação - MongoDB 1º Teste consiste em analisar capacidade de respostas de MongoDB Utilizaram sistema centralizado em que cada node (worker) faz checkpoint periodicamente Checkpoint cada node informa o servidor do seu status espaçado por um intervalo de tempo prédefinido (ex: cada 2s) Testa a capacidade de MongoDB dar resposta a milhares de coneções ao mesmo tempo

6.1) Avaliação - MongoDB 768 tarefas distribuídos por 192 cores (4 tarefas por core) Checkpoint de 1s à 5s Aumenta-se o Checkpoint o valor do Overhead diminui cecar de 250% 1MB provoca tráfego de 768Mb/s para Checkpoints de 1s

6) Avaliação - MongoDB Checkpoint em intervalo fixos de 10s e tamanhos diferentes: 1MB e 64KB Overhead aumenta com o aumenta do número de tarefas O tamanho não influencia o Overhead até 1000 tarefas Nº de conneções tem mais influencia no Overload do que o tamanho dos dados Justificação: MongoDB dispara um thread por cada conecção com um stack próprio.

6.2 Avaliação HDFS vs MongoDB Hadoop Distributed File System (HDFS) MongoDB (NoSQL) Comparação de operações de READ/WRITE Foi desenvolvido um programa em Java + Python faz READ de 37M de records e WRITE 19M records de e para MongoDB e HDFS Objectivo: é testar essas duas operações em apenas um node

6.2 Avaliação HDFS vs MongoDB Resultados: Foram configurados 2 nodes HDFS e 2 servidores MongoDB Cada node lê 37.2 milhões de records Performance: ratio de 3:1 entre HDFS e MongoDB em volumes grandes Ratio de 24:1 em volumes pequenos READ WRITE HDFS 9,3 Milhões/ min 19 Milhões / 15 seg MongoDb 2,7 Milhões/min 19 Milhões / 6 min

6.2 Avaliação MongoDB MapReduce MongoDB possui nativamente, a sua implementação de MapReduce O gráfico mostra que o ganho da Hadoop-MondoDb em relação a MongoDB Map Reduce nativo é significativamente, tanto a nível, do tempo e do número de records Hadoop-MondoDb é mais escalável que MongoDB Map Reduce

6.3 Avaliação Scalability Testaram 3 tipos de combinação entre as duas tecnologias : Hadoop -HDFS Hadoop-MongoDB com Servidores partilhados Hadoop-MongoDb com único Servidor Resultados:

6.3 Avaliação Scalability O Cluster varia entre 16 cores a 64 cores para de 37 milhões de entradas Modelo de servidores partilhados apresenta melhor resultados com o aumento dos cores (logo, aumento dos mappers) O gráfico mostra-nos que a operação de escrita é o calcanhar de aquiles do MongoDB

6.3 Avaliação Scalability Fonte: http://www.stanford.edu/~paulcon/docs/hadoop-lbnl-icme.pdf

6.3 Tolerância a Falhas Apresenta-se aqui um gráfico sobre a análise feita sobre a tolerância a falhas Teste hadoop-hdfs vd mongodb-hadoop em 32 nodes num cluster Hadoop Após falha em 8 nodes, Hadoop-HDFS apresentou POUCA tolerância a falhas e não termina todas as tarefas MapReduce mesmo que os nodes contenha partes do trabalho já distribuído

6.3 Tolerância a Falhas Mongo-hadoop revelou-se MAIS tolerante a falhas, devido ao facto de receber do Servidor MongoDB, logo perda de nodes NÂO, significa perda de dados e a tarefa pode ser concluída, mesmo com metade do cluster disponível. Em caso de perda do/os Servidor/os MongoDB deve provocar a mesma falha de tolerância

7. Discussão Um único servidor MongoDB revela detioração de performance quando executa entre 1000 e 1500 threads concorrentes (connecções) especialmente na leitura. Em casos em que os dados já estão armazenados na MongoDB, a implementação do MapReduce, Hadoop apesenta resultados muito bons a nível de ESCALABILIDADE (5x mais rápido do que MR nativo)

7. Conclusão \ Discussão Apesar do volume de dados e número de conecções contribuírem para o overhead do MongoDB, o estudo, mostrou que número de conecções constituem um problema maior que o volume de dados. MondoDB apresentou uma maior tolerância a falhas, enquanto que HDFS falhou em completar a tarefa quando houve falha de 8 nodes num cluster de 32

7. Conclusão \ Discussão MongoDB trata-se de uma boa alternativa para armazenamento de dados, mas a nível da analise dos mesmos, a Hadoop apresenta melhores resultados Introspecção bastante completa sobre o uso de MongoDB e Hadoop Apresenta Vantagens e desvantagens em cada operação de READ/WRITE

Referências http://docs.mongodb.org/manual/ http://en.wikipedia.org/wiki/mongodb http://datasys.cs.iit.edu/events/sciencecloud2013 /p02.pdf http://www.stanford.edu/~paulcon/docs/hadoop- LBNL-ICME.pdf