AVALIAÇÃO DE DESEMPENHO DE PROCESSAMENTO DISTRIBUÍDO EM LARGA ESCALA COM HADOOP

Documentos relacionados
Avaliação de desempenho e dependabilidade de processamento de dados em larga escala com Hadoop

Big Data Open Source com Hadoop

Informática Parte 10 Prof. Márcio Hunecke

Apache Spark I NTRODUÇÃO À C OMPUTAÇÃO PARALELA E D ISTRIBUÍDA

Introdução Ferramentas Unix MapReduce Outras Ferramentas. Batch Processing. Fabiola Santore. Universidade Federal do Paraná

Escalonamento Adaptativo para o Apache Hadoop

Técnicas de Big Data e Projeção de Medidas de Risco para de Negociação em Alta Frequência

Sobre a execução de workflows científicos sobre diferentes estrategias de dados de entrada - Uma Avaliação Experimental

PÓS-GRADUAÇÃO ANÁLISE DE BIG DATA

MBA ANALYTICS EM BIG DATA

Apache Hadoop É hoje que vai instalar o seu primeiro cluster?

QUESTIONÁRIO SOBRE HADOOP LEITURA DO MATERIAL FORNECIDO ALUNO/GRUPO ;

Um Servidor Escalável para Bases Massivas de

A NOVA EXPERIÊNCIA ANALÍTICA

Bruno Antunes da Silva UFSCar - Sorocaba

Benjamin Bengfort Jenny Kim

BIG DATA: UMA INTRODUÇÃO. Prof. Ronaldo R. Goldschmidt

COMPUTAÇÃO EM NUVEM E PROCESSAMENTO MASSIVO DE DADOS Conceitos, tecnologias e aplicações

MapReduce. Capítulo 2. Renato Gomes Borges Júnior

PrIntCloud. Disciplina: Procedência de Dados e Data Warehousing. Aluna: Shermila Guerra Santa Cruz. 16/04/13

Estudo de implementação de um cluster utilizando apache hadoop. Giovanni Furlanetto

Capítulo 7: SPARQL Processamento de consulta em nuvem

ORGANIZAÇÃO E ARQUITETURA DE COMPUTADORES II AULA 04: PROCESSAMENTO PARALELO: MULTICOMPUTADOR

APLICAÇÕES DE BIG DATA COM SPARK E PYTHON

SIST706 Sistemas Distribuídos

Informática Parte 11 Prof. Márcio Hunecke

CASSANDRA: BANCO DE DADOS NÃO RELACIONAL DE ALTO DESEMPENHO

BIG DATA PODEMOS DIZER QUE SÃO DADOS GRANDES?

Framework para Deduplicação de Dados com Apache Spark

CURTA DURAÇÃO ANÁLISE DE BIG DATA. CARGA HORÁRIA: 80 horas COORDENAÇÃO: Prof. Dr. Adolpho Pimazoni Canton Prof.ª Drª Alessandra de Ávila Montini

Uma introdução ao Apache Hama

Puca Huachi Vaz Penna

Autor 1 Orientador: 1. dia de mês de ano

Componente de aplicação. Figura 1 - Elementos funcionais de uma aplicação sendo executados de forma distribuída

Palavras-chave: (banco de dados; prontuário médico; paciente); deve vir logo abaixo do resumo

Sistemas Distribuídos. Ricardo Ribeiro dos Santos

Algoritmos de Junção Estrela em MapReduce

Organização de Computadores I

Processamento de INDUSTRIA 4.0. Big Data. Aula #10 - Processamento distribuído de dados FONTE: DELIRIUM CAFE EDUARDO CUNHA DE ALMEIDA

INTRODUÇÃO. Prof. Msc. Luis Filipe Alves Pereira 2015

Arquivo da Web Portuguesa. Daniel Gomes fccn.pt Universidade Lusófona, 14 de Janeiro de 2009

Algoritmos - 1. Alexandre Diehl. Departamento de Física - UFPel

BIG DATA. Jorge Rady de Almeida Jr. Escola Politécnica da U SP

BCD29008 Banco de dados

Banco de Dados. SGBDs. Professor: Charles Leite

Sergio Adriano Blum Data Scientists

Bruno da Silva de Oliveira. Hydra: Compilação Distribuída de código fonte

CP Introdução à Informática Prof. Msc. Carlos de Salles

Arquitetura de referência de Streaming sob demanda para desktop (ODDS) DELL

5.1. Fluxo para geração do Roadmap

Análise de Sensibilidade e Métricas de Disponibilidade e Desempenho Aplicadas em Serviços de Streaming de Vídeo usando Infraestrutura de Nuvem

BCD29008 Banco de dados

Sistemas Operacionais Distribuídos

Computadores e Programação (DCC/UFRJ)

DESENVOLVIMENTO DE UM ALGORITMO PARALELO PARA APLICAÇÃO EM CLUSTER DE COMPUTADORES

Linguagens de Programação

Big Data. O que é Big Data! Como surgiu isso! Para que serve?!

Seminário apresentado em 29/06/2017 Disciplina: Sistemas Distribuídos Professora: Noemi Rodriguez Aluno: Ricardo Dias

Capítulo 2 Livro do Mário Monteiro Componentes Representação das informações. Medidas de desempenho


GFM015 Introdução à Computação. Plano de Curso e Introdução. Ilmério Reis da Silva UFU/FACOM

SCAPE. Ambientes de preservação escaláveis. Miguel Ferreira, PhD. Director técnico // KEEP SOLUTIONS

Avaliação da Disponibilidade de Infraestrutura de Sincronização de Dados

ORGANIZAÇÃO E ARQUITETURA DE COMPUTADORES II AULA 02: PROCESSAMENTO PARALELO: PROCESSADORES VETORIAIS

Avanços e Perspectivas do Projeto Integrade na UFMA

Os efeitos do paralelismo e relações de thesaurus em uma ferramenta de busca em bases textuais

CATEGORIA: CONCLUÍDO ÁREA: ENGENHARIAS E ARQUITETURA SUBÁREA: ENGENHARIAS INSTITUIÇÃO: FACULDADE DE ENGENHARIA DE SOROCABA AUTOR(ES): TAN KIN TAT

Predição de Utilização de Recursos Computacionais Usando Séries Temporais

Introdução. Aula 02. Estrutura de Dados II. UFS - DComp Adaptados a partir do material da Profa. Kenia Kodel Cox

Um Repositório Chave-Valor com Garantia de Localidade de Dados. Patrick A. Bungama Wendel M. de Oliveira Flávio R. C. Sousa Carmem S.

Introdução à Informática. Aula 1

Big Data. A Nova Onda

BUSINESS INTELLIGENCE E DATA WAREHOUSE. Big Data Conceitos, Técnicas, Ferramentas e Arquitetura. tutorpro.com.br cetax.com.br

Organização de Computadores Sistema de entrada e saída (I/O) e computação paralela. Professor: Francisco Ary

Organização de Computadores Computação paralela; Sistema de entrada e saída (I/O); Suporte a Sistema operacional. Professor: Francisco Ary

Gerência de Dispositivos. Adão de Melo Neto

Sistema Distribuído. Sistema Distribuído. Aplicações Distribuídas. Conceitos Básicos

SOLUÇÃO HADOOP COM EMC ISILON E CLOUDERA ENTERPRISE

Sistemas Operacionais I

Aplicação de Processamento Paralelo com GPU a Problemas de Escoamento Monofásico em Meios Porosos. Bruno Pereira dos Santos Dany Sanchez Dominguez

Um Mecanismo de Auto Elasticidade com base no Tempo de Resposta para Ambientes de Computação em Nuvem baseados em Containers

Aluna: Príscila Lima Orientador: Prof. Paulo Maciel

Sistemas Distribuídos

Manual Planejamento e Controle da Produção

Sistemas Distribuídos. Ricardo Ribeiro dos Santos

INFORMÁTICA: Informação automática

Análise Integrada de Desempenho e Consumo de Energia em Sistemas de Armazenamento de Dados Distribuídos

Tópicos Avançados em Sistemas Computacionais: Infraestrutura de Hardware Aula 06

Introdução à Computação

Vamos transformar os seus Raspberry PI num cluster (Parte 2)

PARALELISMO NO NÍVEL DO PROCESSADOR

SISTEMAS DISTRIBUÍDOS

Sistemas Distribuídos

5 Modelo de Programação

Introdução a Computação

Programação Paralela e Distribuída

Transcrição:

AVALIAÇÃO DE DESEMPENHO DE PROCESSAMENTO DISTRIBUÍDO EM LARGA ESCALA COM HADOOP Débora Stefani Lima de Souza dsls@cin.ufpe.br Orientador: Dr. Paulo Romero Martins Maciel

INTRODUÇÃO Nem sempre os dados vão ser estruturados: Dados semi-estruturados e/ou não estruturados. Sistema são construídos a partir de diferentes linguagens de programação e geram arquivos com diferentes formatos! Duas questões são cruciais: Como armazenar, manipular e analisar uma grande quantidade de dados? Como fazer a análise desse dados no menor tempo possível?

MAPREDUCE 4

HADOOP Estrutura que permite o processamento distribuído de uma grande quantidade de um conjunto de dados através de clusters usando simples modelos de programação. Apache Hadoop page (2017) 5

HADOOP O que é o Hadoop? Cluster (commodity hardware), ou grid ou nuvem + Processamento paralelo em larga escala + Armazenamento de dados distribuído + Replicação de dados + Alto desempenho + Tolerância a falhas + Programação simples e descomplicada = 6

HADOOP Quem utiliza? 7

HADOOP ALGUMAS CARACTERÍSTICAS Vantagens Foco na regra do negócio! Permite adicionar/remover máquinas sem que seja necessário alterar seu código fonte. Dados são divididos entre os nós. Mover a computação para onde os dados estão. Dificuldades O nó mestre é o único ponto de falha. Processamento de arquivos pequenos. Dependência entre dados. 8

HADOOP FORMAÇÃO Formado basicamente por: Common + HDFS (Hadoop Distributed File System) + Yarn + MapReduce Contudo, há vários projetos relacionados ao Hadoop, entre eles: Cassandra Pig Hbase Hive 9

HADOOP FUNCIONAMENTO 10

PESQUISA Objetivos Avaliar o desempenho de processamento distribuído em larga escala utilizando Hadoop. Propor formas de auxiliar o Hadoop a alcançar Para tanto... Construir três ferramentas: Mamute avaliar o desempenho do sistema. Marfim avaliar o sistema na ocorrência de falhas. Mastodonte auxiliar o Hadoop para aprimorar o desempenho. 11

ESTRUTURA DE TESTE Intel Core I3 4GB - RAM Intel Core I3 4GB - RAM Intel Core I3 2GB - RAM Master No1 Intel Core I5 4GB - RAM Intel Core I7 4GB - RAM No2 No3 Intel Core 2 Quad 4GB - RAM No4 Client 12

CENÁRIOS Cenário 1: Experimentos com arquivo de 5GB executado repetidamente em sequência. Cenário 2: Experimentos com arquivo de 5GB executado repetidamente em paralelo. Cenário 3: Experimentos com arquivos de 30GB executado repetidamente em sequência. Cenário 4: Experimentos com arquivos de 30GB executado repetidamente em paralelo. 13

RESULTADOS MAMUTE Cenário 1: Número de amostras: 119 Tempo total de execução: 14,77hs Média: 446,95 Desvio padrão: 221,83 Observação: No 2 ativo 14

RESULTADOS MAMUTE Cenário 2 Número de amostras: 119 Tempo total de execução: 9,26hs Observação: no 2 ativo. 15

RESULTADOS MAMUTE Cenário 3 Número de amostras: 42 Tempo total de execução: 10hs Média: 857,19 Desvio padrão: 6,64 Observação: O nó 2 já estava em definitivo na blacklist 16

RESULTADOS MAMUTE Cenário 4 Número de amostras: 42 Tempo total de execução: 10,97hs Média: 875,31 Desvio padrão: 22,85 Observação: O nó 2 já estava em definitivo na blacklist 17

PRÓXIMOS PASSOS Atualizar o Mamute para incluir uma nova funcionalidade. Possibilidade de realizar experimento específicos para a necessidade da empresa. Concluir o Marfim Implementar o Mastodonte 18

AVALIAÇÃO DE DESEMPENHO DE PROCESSAMENTO DISTRIBUÍDO EM LARGA ESCALA COM HADOOP Débora Stefani Lima de Souza dsls@cin.ufpe.br Orientador: Dr. Paulo Romero Martins Maciel