HadoopDB. Edson Ie Serviço Federal de Processamento de Dados - SERPRO

Tamanho: px
Começar a partir da página:

Download "HadoopDB. Edson Ie Serviço Federal de Processamento de Dados - SERPRO"

Transcrição

1 HadoopDB Edson Ie Serviço Federal de Processamento de Dados - SERPRO

2 Motivação Grandes massas de dados precisam ser processadas em clusters: 1 nó: = 23 dias Cluster com 1000 nós 33 min!!! Necessidades: Confiabilidade Transparência Facilidade de uso Tolerância à falhas Open source 2

3 Paralell Databases Parallel Databases são como databases singlenode exceto: Dados são particionados pelos nós Operações relacionais individuais podem ser executadas em paralelo. 3

4 Paralell Databases Não existem implementações free/open source $$$$ Tolerância a falhas?? 4

5 MapReduce MapReduce é um modelo de programação que especifica: Uma função (map function) que processa um par chave/valor (key/value) para gerar um conjunto de pares intermediários, Uma função (reduce function) que junta todos os valores intermediáios com a mesma chave intermediária. 5

6 . 6

7 Hadoop Commodity Hardware Cluster Distributed File System (HDFS) Modeled on GFS Distributed Processing Framework Using the Map-Reduce paradigm Open Source, Java Apache Lucene subproject 7

8 Powered by... Amazon/A9 process millions of sessions daily for analytics node clusters Facebook Reporting/analytics and machine learning 320 machine cluster with 2,560 cores and about 1.3 PB raw storage Google University Initiative to Address Internet-Scale Computing Challenges IBM Blue Cloud Computing Clusters Yahoo! >15000 computer nodes Used to support research for Ad Systems and Web Search Also used to do scaling tests to support development of Hadoopon larger clusters Last.fm 8

9 Exemplo Considere um enorme massa de dados de registros de vendas, cada um consistindo das seguintes informações: 1 data da venda 2 preço 9

10 Exemplo usando Hadoop Query: Calcular o total de vendas de cada ano. Escreve-se um programa MapReduce: Map: Pegamos os registros de vendas e extraímos o par chave/valor com o ano e o preço de venda. Reduce: Simplesmente soma todos os valores para cada ano. 10

11 11

12 Exemplo Suponha que os dados estejam armazenados num banco de dados relacional. O exemplo do registro de vendas pode ser expresso em SQL: SELECT YEAR(date) AS year, SUM(price) FROM sales GROUP BY year 12

13 Exemplo Questão: Como podemos processar isso eficientemente se a base de dados é muito grande? 13

14 Paralell Databases SELECT YEAR(date) AS year, SUM(price) FROM sales GROUP BY year Plano de execução para a query: projection(year,price)! partial hash aggregation(year,price)! partitioning(year)! final aggregation(year,price). 14

15 Comparativo 15

16 Comparativo 16

17 17

18 18

19 19

20 Hive Hive converts as queries SQL em jobs MapReduce usando arquivos HDFS 1 Derives schema of files from an internal catalog 2 Parses, plans, optimizes the SQL query into a relational operator DAG 3 Breaks down plan into series of Map / Reduce task with interleaving re-partition operators 20

21 SQL MR - SQL 21

22 Comparação Comparando HadoopDB com Hadoop e com Parallel databases: 1 Performance: Esperamos que o HadoopDB se aproxime da performance das Parallel Databases 2 Escalabilidade: Esperamos que o HadoopDB escale tão bem quanto o Hadoop. Tolerância a falhas e flutuações. 22

23 Benchmarks Stage Amazon EC2 cloud, clusters of 10, 50, 100 machines 2 Characters Hadoop HadoopDB Vertica DB-X Plot Pavlo et al. SIGMOD benchmark of large-scale analytical queries derived from processing web-data 20+ GB/node 3 DB-X results reproduced from Pavlo et al

24 Benchmarks 24

25 Benchmarks 25

26 Benchmarks 26

27 Tolerância a falhas 27

28 Referências Página do HadoopDb na Universidade de Yale: HadoopDB: An Architectural Hybrid of MapReduce and DBMS Technologies for Analytical Workloads. Azza Abouzeid, Kamil Bajda-Pawlikowski, Daniel J. Abadi, Avi Silberschatz, Alex Rasin. In Proceedings of VLDB, Apresentação - VLDB 2009 : Apresentação - Hadoop World: NYC 2009: %20%20-% %20Kamil%20Bajda-Pawlikowski, %20HadoopDB_NYC.pdf 28

29 Instalação Requisitos: # JavaTM 1.6.x # Hadoop # PostgreSQL instalado em cada nó do cluster O Hadoop pode ser conseguido em um dos espelhos de download do Apache. Veja em As instruções estão na página: 29

AN IN-DEPTH STUDY OF MAP REDUCE IN CLOUD ENVIRONMENT. Sistemas Distribuídos e Tolerância a Falhas Nuno Garcia m6284, Tiago Carvalho m6294

AN IN-DEPTH STUDY OF MAP REDUCE IN CLOUD ENVIRONMENT. Sistemas Distribuídos e Tolerância a Falhas Nuno Garcia m6284, Tiago Carvalho m6294 AN IN-DEPTH STUDY OF MAP REDUCE IN CLOUD ENVIRONMENT Sistemas Distribuídos e Tolerância a Falhas Nuno Garcia m6284, Tiago Carvalho m6294 Sobre o paper Novia Nurain, Hasan Sarwar, Md.Pervez Sajjad United

Leia mais

Big Data Definição, Desafios e Análise de dados Seminário da disciplina IN940 - Banco de Dados

Big Data Definição, Desafios e Análise de dados Seminário da disciplina IN940 - Banco de Dados Big Data Definição, Desafios e Análise de dados Seminário da disciplina IN940 - Banco de Dados Aluno: Victor Santos Professor: Ana Carolina Fernando Fonseca AGENDA 1 - O que é Big Data? 2 - Impactos do

Leia mais

BIG DATA: UTILIZANDO A INTERNET PARA TOMADA DE DECISÕES

BIG DATA: UTILIZANDO A INTERNET PARA TOMADA DE DECISÕES BIG DATA: UTILIZANDO A INTERNET PARA TOMADA DE DECISÕES Alex Travagin Chatalov¹, Ricardo Ribeiro Rufino ¹ ¹Universidade Paranaense (Unipar) Paranavaí PR Brasil alex_tr1992@hotmail.com ricardo@unipar.br

Leia mais

Introdução aos Bancos de Dados Não-Relacionais. Mauricio De Diana (mestrando) Marco Aurélio Gerosa (orientador)

Introdução aos Bancos de Dados Não-Relacionais. Mauricio De Diana (mestrando) Marco Aurélio Gerosa (orientador) Introdução aos Bancos de Dados Não-Relacionais Mauricio De Diana (mestrando) Marco Aurélio Gerosa (orientador) Conteúdo Histórico de BDs não-relacionais na Web 4 Categorias de bancos NoSQL Exemplos de

Leia mais

Introdução à Computação na Nuvem Markus Endler

Introdução à Computação na Nuvem Markus Endler http://picasaweb.google.com/markus.endler/favorites?feat=directlink directlink Introdução à Computação na Nuvem Markus Endler Agenda História e Contexto Definições i e Tipos Exemplos de Cloud computing

Leia mais

Uma Abordagem de Classificação não Supervisionada de Carga de Trabalho MapReduce Utilizando Análise de Log

Uma Abordagem de Classificação não Supervisionada de Carga de Trabalho MapReduce Utilizando Análise de Log paper:37 Uma Abordagem de Classificação não Supervisionada de Carga de Trabalho MapReduce Utilizando Análise de Log Ivan Luiz Picoli¹, Eduardo Cunha de Almeida¹ Nível: Mestrado; Ano de Ingresso: 2013;

Leia mais

Conceito de Big Data

Conceito de Big Data Conceito de Big Data O que são Dados? A palavra Dados é o plural de Datum em Latin que significava Dar", ou seja "algo dado". Dados como um conceito abstrato pode ser explicado como o mais baixo nível

Leia mais

23/05/12. Computação em Nuvem. Computação em nuvem: gerenciamento de dados. Computação em Nuvem - Características principais

23/05/12. Computação em Nuvem. Computação em nuvem: gerenciamento de dados. Computação em Nuvem - Características principais Computação em Nuvem Computação em nuvem: gerenciamento de dados Computação em nuvem (Cloud Computing) é uma tendência recente de tecnologia cujo objetivo é proporcionar serviços de Tecnologia da Informação

Leia mais

Estratégia para dentificação dos fatores de maior impacto de aplicações Mapreduce

Estratégia para dentificação dos fatores de maior impacto de aplicações Mapreduce Estratégia para dentificação dos fatores de maior impacto de aplicações Mapreduce Fabiano da Guia Rocha Instituto Federal de Educação, Ciência e Tecnologia de Mato Grosso - Campus Cáceres Av. dos Ramires,

Leia mais

NoSQL na Web 2.0: Um Estudo Comparativo de Bancos Não-Relacionais para Armazenamento de Dados na Web 2.0

NoSQL na Web 2.0: Um Estudo Comparativo de Bancos Não-Relacionais para Armazenamento de Dados na Web 2.0 NoSQL na Web 2.0: Um Estudo Comparativo de Bancos Não-Relacionais para Armazenamento de Dados na Web 2.0 Mauricio De Diana 1, Marco Aurélio Gerosa 1 1 Department of Computer Science University of São Paulo

Leia mais

Weather Search System

Weather Search System Weather Search System PROJECTO DE COMPUTAÇÃO EM NUVEM RELATÓRIO Grupo 2 Gonçalo Carito - Nº57701 Bernardo Simões - Nº63503 Guilherme Vale - Nº64029 Índice Weather Search System...1 1. A Solução Implementada...3

Leia mais

Análise comparativa de ambientes e linguagens para computação intensiva de dados na nuvem

Análise comparativa de ambientes e linguagens para computação intensiva de dados na nuvem Análise comparativa de ambientes e linguagens para computação intensiva de dados na nuvem Robespierre Dantas 1, Marcos Barreto 1 1 LaSiD, IM, DCC, UFBA CEP 40.170-110 Salvador BA Brazil {pierre.pita,marcoseb}@gmail.com

Leia mais

Big Data 14/12/2012 PÓS-GRADUAÇÃO LATO SENSU. Curso: Banco de Dados. = volume + variedade + velocidade de dados

Big Data 14/12/2012 PÓS-GRADUAÇÃO LATO SENSU. Curso: Banco de Dados. = volume + variedade + velocidade de dados PÓS-GRADUAÇÃO LATO SENSU Big Data Curso: Banco de Dados Disciplina: Data Warehouse e Business Intelligence Professor: Fernando Zaidan Unidade 7 Big Data 2012 Big Data - Contexto Globalização Modelo just

Leia mais

Scalability of replicated metadata services in distributed file systems

Scalability of replicated metadata services in distributed file systems Scalability of replicated metadata services in distributed file systems Dimokritos Stamatakis, Nikos Tsikoudis Ourania Smyrnaki, Kostas Magoutis 2012 Wendel Muniz de Oliveira 22 de Abril 2015 Roteiro Contexto

Leia mais

NoSQL: Vantagens, Desvantagens e Compromissos. Mauricio De Diana (mestrando) Marco Aurélio Gerosa (orientador)

NoSQL: Vantagens, Desvantagens e Compromissos. Mauricio De Diana (mestrando) Marco Aurélio Gerosa (orientador) NoSQL: Vantagens, Desvantagens e Compromissos Mauricio De Diana (mestrando) Marco Aurélio Gerosa (orientador) Agenda Definição de NoSQL Atributos de qualidade e trocas Modelo de dados Escalabilidade Transações

Leia mais

Prof. Daniela Barreiro Claro

Prof. Daniela Barreiro Claro Prof. Daniela Barreiro Claro Volume de dados muito grande Principais problemas em relacao aos SGBD Relacionais é conciliar o tipo de modelo com a demanda da escalabilidade. Exemplo -Facebook Um crescimento

Leia mais

Interoperabilidade entre Bancos de Dados Relacionais e Bancos de Dados NoSQL (Parte 2)

Interoperabilidade entre Bancos de Dados Relacionais e Bancos de Dados NoSQL (Parte 2) Minicurso: Interoperabilidade entre Bancos de Dados Relacionais e Bancos de Dados NoSQL (Parte 2) Geomar A. Schreiner - schreiner.geomar@posgrad.ufsc.br Ronaldo S. Mello r.mello@ufsc.br Departamento de

Leia mais

Grandes volumes de dados pertenciam ao domínio das aplicações científicas até há 15 anos atrás.

Grandes volumes de dados pertenciam ao domínio das aplicações científicas até há 15 anos atrás. Grandes volumes de dados pertenciam ao domínio das aplicações científicas até há 15 anos atrás. Com o crescimento exponencial das aplicações Web o volume de dados que é produzido e processado tornou-se

Leia mais

Big Data e Análise de Dados: Tendências e Aplicações em Projetos. Marcus Borba. Apresentação

Big Data e Análise de Dados: Tendências e Aplicações em Projetos. Marcus Borba. Apresentação Big Data e Análise de Dados: Tendências e Aplicações em Projetos Marcus Borba 1 Apresentação Marcus Borba CTO - Spark Strategic Business Solution. 30 anos de experiência em tecnologia da informação.. 14

Leia mais

Prof. Daniela Barreiro Claro

Prof. Daniela Barreiro Claro Prof. Daniela Barreiro Claro Volume de dados muito grande Principais problemas em relação aos SGBD Relacionais é conciliar o tipo de modelo com a demanda da escalabilidade. Exemplo -Facebook Um crescimento

Leia mais

MC714A - 2º Semestre 2015. Nomes: Roberto Hayasida Mariane Previde Cibelle Begalli

MC714A - 2º Semestre 2015. Nomes: Roberto Hayasida Mariane Previde Cibelle Begalli MC714A - 2º Semestre 2015 Nomes: Roberto Hayasida Mariane Previde Cibelle Begalli RAs:103984 121192 135334 Facebook Introdução Os 4 grandes tipos de sistemas de armazenamento utilizados no Facebook: OLTP

Leia mais

Por que? A WEB está substituindo o desktop Google Gmail, Google Docs, Amazon, Flickr, Facebook, Twitter, YouTube Mudança de Paradigma:

Por que? A WEB está substituindo o desktop Google Gmail, Google Docs, Amazon, Flickr, Facebook, Twitter, YouTube Mudança de Paradigma: Por que? A WEB está substituindo o desktop Google Gmail, Google Docs, Amazon, Flickr, Facebook, Twitter, YouTube Mudança de Paradigma: Amazon Web Services Windows Azure Platform Google App Engine Evolução

Leia mais

PVFS-Store - Um repositório chave-valor com garantia de localidade

PVFS-Store - Um repositório chave-valor com garantia de localidade paper:66 PVFS-Store - Um repositório chave-valor com garantia de localidade Ricardo M. Maeda 1 Orientadora: Carmem Satie Hara 1 1 PPGInf - Programa de Pós-Graduação em Informática Departamento de Informática

Leia mais

RELATÓRIO DE ATIVIDADES DISCIPLINA: ARQUITETURAS PARALELAS. Hadoop e QEF: Uma abordagem distribuída para aplicações de Astronomia

RELATÓRIO DE ATIVIDADES DISCIPLINA: ARQUITETURAS PARALELAS. Hadoop e QEF: Uma abordagem distribuída para aplicações de Astronomia UNIVERSIDADE FEDERAL FLUMINENSE INSTITUTO DE COMPUTAÇÃO (IC) RELATÓRIO DE ATIVIDADES DISCIPLINA: ARQUITETURAS PARALELAS Hadoop e QEF: Uma abordagem distribuída para aplicações de Astronomia Henrique Klôh

Leia mais

Lab 2 MapReduce e o Console Web

Lab 2 MapReduce e o Console Web Lab 2 MapReduce e o Console Web Objetivos do Laboratório Neste laboratório você irá praticar o que você aprendeu nesta lição, mais especificamente você ira praticar as operações de MapReduce e aprender

Leia mais

A Cloud Computing Architecture for Large Scale Video Data Processing

A Cloud Computing Architecture for Large Scale Video Data Processing Marcello de Lima Azambuja A Cloud Computing Architecture for Large Scale Video Data Processing Dissertação de Mestrado Dissertation presented to the Postgraduate Program in Informatics of the Departamento

Leia mais

Tecnologias para Gerenciamento de Dados na Era do Big Data

Tecnologias para Gerenciamento de Dados na Era do Big Data Tecnologias para Gerenciamento de Dados na Era do Big Data Victor Teixeira de Almeida 1,2 Vitor Alcântara Batista 1 1 PETROBRAS 2 Universidade Federal Fluminense (UFF) Importante A Petrobras não é responsável

Leia mais

Hadoop - HDFS. Universidade Federal de Goiás Ciência da Computação

Hadoop - HDFS. Universidade Federal de Goiás Ciência da Computação Hadoop - HDFS Universidade Federal de Goiás Ciência da Computação O que é Hadoop? Um framework para lidar com aplicações distribuídas que fazem uso massivo de dados Originalmente construído para a distribuição

Leia mais

NoSQL: onde, como e por quê? Rodrigo Hjort rodrigo@hjort.co

NoSQL: onde, como e por quê? Rodrigo Hjort rodrigo@hjort.co NoSQL: onde, como e por quê? Rodrigo Hjort rodrigo@hjort.co Quem aqui usa banco de dados? Por que precisamos de SQL? Onde usamos SQL (i.e. ACID)? MAS... Universo digital em expansão Fonte: IDC White Paper,

Leia mais

Google s Globally-Distributed Database. (Banco de Dados Globalmente Distribuído da Google)

Google s Globally-Distributed Database. (Banco de Dados Globalmente Distribuído da Google) Spanner Google s Globally-Distributed Database (Banco de Dados Globalmente Distribuído da Google) James C. Cobertt, Jeffrey Dean, Michael Epstein, Andrew Fikes, Christopher Frost, et. al. Google, Inc.

Leia mais

Avaliação do Controle de Acesso de Múltiplos Usuários a Múltiplos Arquivos em um Ambiente Hadoop

Avaliação do Controle de Acesso de Múltiplos Usuários a Múltiplos Arquivos em um Ambiente Hadoop Avaliação do Controle de Acesso de Múltiplos Usuários a Múltiplos Arquivos em um Ambiente Hadoop Eduardo Scuzziato 1, João E. Marynowski 1,2, Altair O. Santin 1 1 Escola Politécnica Ciência da Computação

Leia mais

São Paulo. Maio/2015

São Paulo. Maio/2015 São Paulo Maio/2015 Padrões de Arquitetura para Big Data Hélio Silva Sr. Big Data Analytics Consultant Professional Services AWS Summit São Paulo Maio/2015 Henrique Souza Especialista de Cloud e Big Data

Leia mais

Big Data: Uma revolução a favor dos negócios

Big Data: Uma revolução a favor dos negócios Big Data: Uma revolução a favor dos negócios QUEM SOMOS Empresa especializada em Big Data e Analytics. Profissionais com larga experiência na gestão de bureaus de crédito, analytics e uso inteligente da

Leia mais

Engenharia de software 2011A. Trabalho sobre

Engenharia de software 2011A. Trabalho sobre Engenharia de software 2011A Trabalho sobre NOSQL Not only SQL NoSQL Not only SQL GRUPO - 9 Cléverton Heming Jardel Palagi Jonatam Gebing Marcos Wassem NOSQL O Termo NoSQL, foi utilizado pela primeira

Leia mais

Abordagem NoSQL uma real alternativa

Abordagem NoSQL uma real alternativa 1 Abordagem NoSQL uma real alternativa Renato Molina Toth Universidade Federal de São Carlos Campus Sorocaba Sorocaba, São Paulo email: renatomolinat@gmail.com Abstract Nas grandes aplicações web, desktop

Leia mais

PERFORMANCE EVALUATION OF A MONGODB AND HADOOP PLATFORM FOR SCIENTIFIC DATA ANALYSIS M.Govindaraju and L. Ramakrishnan

PERFORMANCE EVALUATION OF A MONGODB AND HADOOP PLATFORM FOR SCIENTIFIC DATA ANALYSIS M.Govindaraju and L. Ramakrishnan PERFORMANCE EVALUATION OF A MONGODB AND HADOOP PLATFORM FOR SCIENTIFIC DATA ANALYSIS M.Govindaraju and L. Ramakrishnan Alfredo Fernandes / José Fernandes 6. Avaliação Nesta secção é apresentada as avaliações

Leia mais

Laboratório do Framework Hadoop em Plataformas de Cloud e. Cluster Computing

Laboratório do Framework Hadoop em Plataformas de Cloud e. Cluster Computing Laboratório do Framework Hadoop em Plataformas de Cloud e Framework Hadoop em Plataformas de Cluster Computing Cloud Computing Eng. André Luiz Tibola. Mst. Raffael Bottoli Schemmer Prof. Dr. Cláudio Fernando

Leia mais

SciCumulus 2.0: Um Sistema de Gerência de Workflows Científicos para Nuvens Orientado a Fluxo de Dados *

SciCumulus 2.0: Um Sistema de Gerência de Workflows Científicos para Nuvens Orientado a Fluxo de Dados * paper:6 SciCumulus 2.0: Um Sistema de Gerência de Workflows Científicos para Nuvens Orientado a Fluxo de Dados * Vítor Silva 1, Daniel de Oliveira 2 e Marta Mattoso 1 1 COPPE Universidade Federal do Rio

Leia mais

Uma Breve Introdução. Andréa Bordin

Uma Breve Introdução. Andréa Bordin Uma Breve Introdução Andréa Bordin O que significa? NoSQL é um termo genérico que define bancos de dados não-relacionais. A tecnologia NoSQL foi iniciada por companhias líderes da Internet - incluindo

Leia mais

CASE STUDY FOR RUNNING HPC APPLICATIONS IN PUBLIC CLOUDS

CASE STUDY FOR RUNNING HPC APPLICATIONS IN PUBLIC CLOUDS Universidade da Beira Interior Mestrado em Engenharia Informática Sistemas de Informação Sistemas Distribuídos e Tolerância a Falhas Apresentação de Artigo CASE STUDY FOR RUNNING HPC APPLICATIONS IN PUBLIC

Leia mais

EUCALYPTUS: UMA PLATAFORMA CLOUD COMPUTING PARA

EUCALYPTUS: UMA PLATAFORMA CLOUD COMPUTING PARA EUCALYPTUS: UMA PLATAFORMA CLOUD COMPUTING PARA QUALQUER TIPO DE USUÁRIO Gustavo Henrique Rodrigues Pinto Tomas 317624 AGENDA Introdução: Cloud Computing Modelos de Implementação Modelos de Serviço Eucalyptus

Leia mais

Bancos de dados NOSQL (Not Only SQL)

Bancos de dados NOSQL (Not Only SQL) Bancos de dados NOSQL (Not Only SQL) Qual banco de dados utilizado pelo Facebook e Twitter???? E pelo Google? Quando você digita pindamonhangaba no Google, e ele traz: "Aproximadamente 7.220.000 resultados

Leia mais

Conceito de Big Data

Conceito de Big Data Conceito de Big Data O que são Dados? A palavra Dados é o plural de Datum em Latin que significava Dar", ou seja "algo dado". Dados como um conceito abstrato pode ser explicado como o mais baixo nível

Leia mais

Alta performance no processamento de Big Data com Spark e Lambda Expressions. Claudio Seidi @claudio_seidi Fabio Velloso @fabiovelloso

Alta performance no processamento de Big Data com Spark e Lambda Expressions. Claudio Seidi @claudio_seidi Fabio Velloso @fabiovelloso Alta performance no processamento de Big Data com Spark e Lambda Expressions Claudio Seidi @claudio_seidi Fabio Velloso @fabiovelloso Cláudio Seidi Bacharel em Ciência da Computação - IME/USP Java desde

Leia mais

Neo4j Aprendendo conceitos por trás do Neo4j. Sem SQL? Apresentação. Por que grafos, por que agora? Por que grafos, por que agora?

Neo4j Aprendendo conceitos por trás do Neo4j. Sem SQL? Apresentação. Por que grafos, por que agora? Por que grafos, por que agora? Neo4j Aprendendo conceitos por trás do Neo4j Universidade Federal do Paraná - UFPR Programa de Pós-Graduação em Informática - PPGInf Oficina de Banco de Dados - CI829 Profa: Dra. Carmem Hara Aluno: Walmir

Leia mais

A base de dados. A plataforma Internet Oracle9i Completa, Logo Simples. Page 1. Luís Marques Senior Sales Consultant Solutions Team

A base de dados. A plataforma Internet Oracle9i Completa, Logo Simples. Page 1. Luís Marques Senior Sales Consultant Solutions Team A base de dados Luís Marques Senior Sales Consultant Solutions Team A plataforma Internet Oracle9i Completa, Logo Simples Oracle9i Application Server Oracle9i Database Server Page 1 Áreas em foco na base

Leia mais

http://blogging.avnet.com/weblog/cioinsights/tag/big-data/ Storm Processamento e análise real time para Big Data 7/24/12 Fabio Velloso

http://blogging.avnet.com/weblog/cioinsights/tag/big-data/ Storm Processamento e análise real time para Big Data 7/24/12 Fabio Velloso http://blogging.avnet.com/weblog/cioinsights/tag/big-data/ Storm Processamento e análise real time para Big Data Fabio Velloso Fabio Velloso Bio Bacharel em Ciência da Computação - UFSCar MBA FGV Desenvolvedor

Leia mais

The Eucalyptus Open-source Cloud-computing System

The Eucalyptus Open-source Cloud-computing System The Eucalyptus Open-source Cloud-computing System O sistema Open Source de nuvens computacionais Eucalyptus Daniel Nurmi, Rich Wolski, Chris Grzegorczyk, Graziano Obertelli, Sunil Soman, Lamia Youseff,

Leia mais

MAC5855 - NoSQL. Mauricio De Diana mdediana@ime.usp.br @mdediana

MAC5855 - NoSQL. Mauricio De Diana mdediana@ime.usp.br @mdediana MAC5855 - NoSQL Mauricio De Diana mdediana@ime.usp.br @mdediana Web 2.0 Data is the Next Intel Inside Inteligência Coletiva Grande volume de dados Escala global (Internet scale services) Web 2.0 Alto grau

Leia mais

Apresentação dos autores

Apresentação dos autores Laboratório do Framework Laboratório do Framework Hadoop Hadoop em Plataformas de em Plataformas de Cloud e Cluster Cloud e Cluster Computing Computing Eng. André Luiz Tibola. Eng. André Luís Tibola. Prof.

Leia mais

NoSQL. Cintia Freitas de Moura. BCC 441 Banco de Dados II / 2014

NoSQL. Cintia Freitas de Moura. BCC 441 Banco de Dados II / 2014 NoSQL Cintia Freitas de Moura BCC 441 Banco de Dados II / 2014 Origem: O termo NoSQL foi usado pela primeira vez em 1998, como o nome de um banco de dados relacional de código aberto que não possuía um

Leia mais

ParGRES: uma camada de processamento paralelo de consultas sobre o PostgreSQL

ParGRES: uma camada de processamento paralelo de consultas sobre o PostgreSQL ParGRES: uma camada de processamento paralelo de consultas sobre o PostgreSQL Marta Mattoso 1, Geraldo Zimbrão 1,3, Alexandre A. B. Lima 1, Fernanda Baião 1,2, Vanessa P. Braganholo 1, Albino A. Aveleda

Leia mais

AN EVALUATION OF ALTERNATIVE ARCHITECTURE FOR TRANSACTION PROCESSING IN THE CLOUD (SIGMOD)

AN EVALUATION OF ALTERNATIVE ARCHITECTURE FOR TRANSACTION PROCESSING IN THE CLOUD (SIGMOD) AN EVALUATION OF ALTERNATIVE ARCHITECTURE FOR TRANSACTION PROCESSING IN THE CLOUD (SIGMOD) Donal Krossman, Tim Kraska and Simon Loesing João Lucas Chiquito Universidade Federal do Paraná Departamento de

Leia mais

NoSQL - 2014. Edward Ribeiro

NoSQL - 2014. Edward Ribeiro NoSQL - 2014 Edward Ribeiro Edward Pesquisador independente (UnB) Professor Universitário Analista de Sistemas (Senado) Contribuidor de software livre Agenda 1. Motivação 2. Definição 3. Descrição a. Modelos

Leia mais

Pollyanna Gonçalves. Seminário da disciplina Banco de Dados II

Pollyanna Gonçalves. Seminário da disciplina Banco de Dados II Pollyanna Gonçalves Seminário da disciplina Banco de Dados II Web 2.0 vem gerando grande volume de dados Conteúdo gerado por redes sociais, sensores inteligentes, tecnologias de colaboração, etc. Novas

Leia mais

E N AT O M O L I N A T O T H

E N AT O M O L I N A T O T H no:sql Not only SQL Renato Molina Toth ww.renatomolina.in R E N AT O M O L I N A T O T H O que é? O que é? Não é uma nova tecnologia, é uma nova abordagem Propõe um modelo alternativo de banco de dados

Leia mais

BIG DATA RESUMO: Palavras-chave: Big Data, Dados Estruturados, Dados Não Estruturados, Escalável, Hadoop, Hardware, MapReduce.

BIG DATA RESUMO: Palavras-chave: Big Data, Dados Estruturados, Dados Não Estruturados, Escalável, Hadoop, Hardware, MapReduce. BIG DATA Marcos Santos Borges Henriques 1 Maria Renata Silva Furtado 2 Paulo Eduardo Santos da Silva 3 Rodrigo Vitorino Moravia 4 RESUMO: Vivemos hoje a era da informação. Os dados são mais valiosos e

Leia mais

Apresentação do Artigo

Apresentação do Artigo Apresentação do Artigo Web Search for a Planet: The Google Cluster Architecture Publicado em IEEE Micro Março 2003, pg.22-28 Luiz A.Barroso, Jeffrey Dean, Urs Hölze Frank Juergen Knaesel fknaesel@inf.ufsc.br

Leia mais

Tópicos Avançados em Banco de Dados Visão Geral de Tópicos Avançados em Banco de Dados I. Prof. Hugo Souza

Tópicos Avançados em Banco de Dados Visão Geral de Tópicos Avançados em Banco de Dados I. Prof. Hugo Souza Tópicos Avançados em Banco de Dados Visão Geral de Tópicos Avançados em Banco de Dados I Prof. Hugo Souza Iniciaremos nossos estudos sobre os tópicos avançados sobre banco de dados recapitulando o histórico

Leia mais

Cloud Compu)ng Bancos de dados distribuídos e móveis

Cloud Compu)ng Bancos de dados distribuídos e móveis Cloud Compu)ng Bancos de dados distribuídos e móveis Rafael Barbosa Gonçalves (rbg2) Sérgio Barza (sb) Roteiro Introdução O que é Cloud Compu:ng? Tipos de serviços oferecidos Privacidade na Cloud Arquitetura

Leia mais

Ferramenta para extração de dados semiestruturados para carga de um Big Data

Ferramenta para extração de dados semiestruturados para carga de um Big Data Ferramenta para extração de dados semiestruturados para carga de um Big Data João Carlos Furtado 1 Gabriel Merten Bulsing 1 Eduardo Kroth 1 Elpídio Oscar Benitez Nara 1 Liane Malhmann Kipper 1 Resumo:

Leia mais

Algoritmo K-Means Paralelo com base no MapReduce para Mineração de dados agrícolas

Algoritmo K-Means Paralelo com base no MapReduce para Mineração de dados agrícolas 312 Algoritmo K-Means Paralelo com base no MapReduce para Mineração de dados agrícolas Lays Helena Lopes Veloso 1, Luciano José Senger 1 1 Departamento de Informática Universidade Estadual de Ponta Grossa

Leia mais

COMPUTAÇÃO EM NUVEM: CONCEITOS E TECNOLOGIAS DE GERENCIAMENTO DE DADOS

COMPUTAÇÃO EM NUVEM: CONCEITOS E TECNOLOGIAS DE GERENCIAMENTO DE DADOS COMPUTAÇÃO EM NUVEM: CONCEITOS E TECNOLOGIAS DE GERENCIAMENTO DE DADOS Ticiana Linhares Coelho da Silva 1, Jean Gleison de Santana Silva 2, Lincoln Alexandre Paz Silva 2, Clayton Maciel Costa 2 1 Departamento

Leia mais

Java Web/UI. Maven3 Redmine CVS. Áreas de conhecimento: Web o Aplicativos Web o Portal de conteúdo o REST Services Web Site Performance

Java Web/UI. Maven3 Redmine CVS. Áreas de conhecimento: Web o Aplicativos Web o Portal de conteúdo o REST Services Web Site Performance Java Web/UI Atribuições do cargo: Desenvolvimento de um Portal/Aplicativo Web de conteúdo público utilizando HTML5+CSS3+JS de design responsivo usando a Web API do portal de transparência como provedora

Leia mais

NoSQL no Desenvolvimento de Aplicações Web Colaborativas

NoSQL no Desenvolvimento de Aplicações Web Colaborativas NoSQL no Desenvolvimento de Aplicações Web Colaborativas Bernadette Farias Lóscio bfl@cin.ufpe.br Hélio Rodrigues Oliveira hro@cin.ufpe.br Jonas César de Sousa Pontes jcsp@cin.ufpe.br Objetivos do minicurso

Leia mais

Europass Curriculum Vitae

Europass Curriculum Vitae Europass Curriculum Vitae Personal information Surname(s) / First name(s) Address(es) Custódio, Jorge Filipe Telephone(s) +351 919687707 Email(s) Personal website(s) Nationality(-ies) Rua Francisco Pereira

Leia mais

Otimização de Desempenho em Processamento de Consultas MapReduce

Otimização de Desempenho em Processamento de Consultas MapReduce cap:3 Capítulo 3 Otimização de Desempenho em Processamento de Consultas MapReduce Ivan Luiz Picoli, Leandro Batista de Almeida, Eduardo Cunha de Almeida Abstract Performance tuning in MapReduce query processing

Leia mais

Um Algoritmo Paralelo para Cálculo de Centralidade. em Grafos Grandes. João Paulo Barbosa Nascimento

Um Algoritmo Paralelo para Cálculo de Centralidade. em Grafos Grandes. João Paulo Barbosa Nascimento CENTRO FEDERAL DE EDUCAÇÃO TECNOLÓGICA DE MINAS GERAIS Mestrado em Modelagem Matemática e Computacional João Paulo Barbosa Nascimento Um Algoritmo Paralelo para Cálculo de Centralidade em Grafos Grandes

Leia mais

MapReduce em Ambientes Voláteis e Heterogêneos

MapReduce em Ambientes Voláteis e Heterogêneos UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL INSTITUTO DE INFORMÁTICA PROGRAMA DE PÓS-GRADUAÇÃO EM COMPUTAÇÃO WAGNER KOLBERG MapReduce em Ambientes Voláteis e Heterogêneos Trabalho Individual I TI-I Prof.

Leia mais

De SGBD a Gerência de Dados

De SGBD a Gerência de Dados De SGBD a Gerência de Dados Carlos A. Heuser ERBD 2012 Curi5ba Pesquisa, ensino e trabalho na área de BD - - Passado, presente e futuro Uma visão pessoal e limitada 2 Obje>vo Tentar responder a perguntas:

Leia mais

Avaliação do desempenho de gerenciadores de bancos de dados multi modelo em aplicações com persistência poliglota

Avaliação do desempenho de gerenciadores de bancos de dados multi modelo em aplicações com persistência poliglota Avaliação do desempenho de gerenciadores de bancos de dados multi modelo em aplicações com persistência poliglota Fábio Roberto Oliveira, Luis Mariano del Val Cura Faculdade Campo Limpo Paulista (FACCAMP)

Leia mais

Alex D. Camargo, Érico M. H. Amaral, Leonardo B. Pinho

Alex D. Camargo, Érico M. H. Amaral, Leonardo B. Pinho COMISSÃO REGIONAL DE ALTO DESEMPENHO / RS ESCOLA REGIONAL DE ALTO DESEMPENHO / RS 15ª Edição - Abril / 2015 Framework open source simplificado para Cloud Computing Alex D. Camargo, Érico M. H. Amaral,

Leia mais

3 0 ENCONTRO DE USUÁRIOS DE BI

3 0 ENCONTRO DE USUÁRIOS DE BI 3 0 ENCONTRO DE USUÁRIOS DE BI Contextualizando Durante o segundo encontro de usuários de BI, o tema Big Data surgiu várias vezes durante as discussões e prometemos que seria assunto de um próximo evento.

Leia mais

Análise de Big Data Streams

Análise de Big Data Streams Análise de Big Data Streams Identificando e tratando fluxo Hadoop Marcelo Vaz Netto Nilson Moraes Filho 14/07/14 Propósito do Artigo Original Programming Your Network at Run-time for Big Data Applications

Leia mais

NoSQL. Seminário da disciplina de Banco de Dados 2015.1. Aluno: Rodrigo Barbosa Folha. IN940 Recife-PE Julho de 2015

NoSQL. Seminário da disciplina de Banco de Dados 2015.1. Aluno: Rodrigo Barbosa Folha. IN940 Recife-PE Julho de 2015 No-SQL Seminário da disciplina de Banco de Dados 2015.1 Aluno: Rodrigo Barbosa Folha NoSQL CIn.ufpe.br IN940 Recife-PE Julho de 2015 Agenda História Evolução NoSQL Conceitos básicos Desafios e dúvidas

Leia mais

Computação intensiva em dados com MapReduce em ambientes oportunistas

Computação intensiva em dados com MapReduce em ambientes oportunistas Computação intensiva em dados com MapReduce em ambientes oportunistas Jonhnny Weslley Silva 1, Thiago Emmanuel Pereira 1, Carla de Araújo Souza 1, Francisco Brasileiro 1 1 Universidade Federal de Campina

Leia mais

Bancos de Dados NoSQL x SGBDs Relacionais:Análise Comparativa*

Bancos de Dados NoSQL x SGBDs Relacionais:Análise Comparativa* Bancos de Dados NoSQL x SGBDs Relacionais:Análise Comparativa* Ricardo W. Brito, Faculdade Farias Brito e Universidade de Fortaleza, ricardow@ffb.edu.br Resumo O Modelo Relacional tem sido amplamente utilizado

Leia mais

Bancos de Dados Distribuídos

Bancos de Dados Distribuídos Bancos de Dados Distribuídos Fernanda Baião baiao@cos.ufrj.br Departamento de Informática Aplicada UNIRIO 2007.2 Bibliografia Utilizada Principal: Özsu, M.T. Valduriez, P. "Princípios de Sistemas de Banco

Leia mais

Trabalho de Conclusão de Curso

Trabalho de Conclusão de Curso UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL INSTITUTO DE INFORMÁTICA CURSO DE ENGENHARIA DA COMPUTAÇÃO Trabalho de Conclusão de Curso Flavio Alles Rodrigues Claudio Geyer Pedro de Botelho Marcos 1 Caracterização

Leia mais

GeoNoSQL: Banco de dados geoespacial em NoSQL

GeoNoSQL: Banco de dados geoespacial em NoSQL Computer on the Beach 2014 - Artigos Completos 303 GeoNoSQL: Banco de dados geoespacial em NoSQL Luís E. O. Lizardo 1, Mirella M. Moro 1, Clodoveu A. Davis Jr. 1 1 Departamento de Ciência da Computação

Leia mais

21/03/12. Consulta distribuída. Consulta distribuída. Objetivos do processamento de consultas distribuídas

21/03/12. Consulta distribuída. Consulta distribuída. Objetivos do processamento de consultas distribuídas Processamento de Consultas em Bancos de Dados Distribuídos Visão geral do processamento de consultas IN1128/IF694 Bancos de Dados Distribuídos e Móveis Ana Carolina Salgado acs@cin.ufpe.br Bernadette Farias

Leia mais

O item 2.1.4 cita que a solução deve atender o padrão ANSI, porém existem várias versões do SQL ANSI, a qual versão SQL ANSI a RFP se refere?

O item 2.1.4 cita que a solução deve atender o padrão ANSI, porém existem várias versões do SQL ANSI, a qual versão SQL ANSI a RFP se refere? 1 Pergunta: 2.2.1 a) Hadoop ( Common Hadoop Distributed File System-HDFS MapReduce YARN) b) Accumulo c) Flume d) HBase e) Hive f) Kafka g) Sentry ou Ranger h) Oozie i) Pig j) Spark k) Sqoop l) Solr / Solr

Leia mais

UNIVERSIDADE FEDERAL DA PARAÍBA

UNIVERSIDADE FEDERAL DA PARAÍBA UNIVERSIDADE FEDERAL DA PARAÍBA CENTRO DE CIÊNCIAS APLICADAS A EDUCAÇÃO DEPARTAMENTO DE CIÊNCIAS EXATAS BACHARELADO EM SISTEMAS DE INFORMAÇÃO Avaliação de Desempenho entre Bancos de Dados Relacionais e

Leia mais

Gonçalo Amador Ricardo Alexandre. Bases de Dados Distribuídas

Gonçalo Amador Ricardo Alexandre. Bases de Dados Distribuídas Sistemas Distribuidos e Tolerância a Falhas Gonçalo Amador Ricardo Alexandre Departamento de Informática Universidade da Beira Interior Bases de Dados Distribuídas 1 Modelos de Bases de Dados 2 Conceitos

Leia mais

ADAPTANDO UMA APLICAÇÃO PARA CLOUD: UMA ANÁLISE ENTRE OS ESFORÇOS UTILIZADOS

ADAPTANDO UMA APLICAÇÃO PARA CLOUD: UMA ANÁLISE ENTRE OS ESFORÇOS UTILIZADOS ADAPTANDO UMA APLICAÇÃO PARA CLOUD: UMA ANÁLISE ENTRE OS ESFORÇOS UTILIZADOS Cleverson Nascimento de Mello¹, Claudete Werner¹, Gabriel Costa Silva² ¹Universidade Paranaense (Unipar) Paranavaí PR Brasil

Leia mais

The Eucalyptus Open- source Cloud-computing System. Janaina Siqueira Lara Wilpert Marcelo Scheidt Renata Silva

The Eucalyptus Open- source Cloud-computing System. Janaina Siqueira Lara Wilpert Marcelo Scheidt Renata Silva The Eucalyptus Open- source Cloud-computing System Janaina Siqueira Lara Wilpert Marcelo Scheidt Renata Silva Sumário Introdução Trabalhos Correlatos Eucalyptus Design Conclusões Visão Geral Introdução:

Leia mais

Bancos de Dados em Clouds

Bancos de Dados em Clouds Bancos de Dados em Clouds Bancos de Dados em Clouds Erik Williams Zirke Osta Rafael Brundo Uriarte Agenda Introdução; Fundamentos; Estudo comparativo das Ferramentas; Conclusões e Trabalhos Futuros. Agenda

Leia mais

PROCESSAMENTO DE DADOS EM LARGA ESCALA NA COMPUTAÇÃO DISTRIBUÍDA

PROCESSAMENTO DE DADOS EM LARGA ESCALA NA COMPUTAÇÃO DISTRIBUÍDA A obra Processamento de Dados em Larga Escala na Computação Distribuída de Celso Luiz Agra de Sá Filho foi licenciada com uma Licença Creative Commons - Atribuição - Uso Não Comercial - Partilha nos Mesmos

Leia mais

ParGRES: Middleware para Processamento Paralelo de Consultas OLAP em Clusters de Banco de Dados

ParGRES: Middleware para Processamento Paralelo de Consultas OLAP em Clusters de Banco de Dados ParGRES: Middleware para Processamento Paralelo de Consultas OLAP em Clusters de Banco de Dados Marta Mattoso 1, Geraldo Zimbrão 1,3, Alexandre A. B. Lima 1, Fernanda Baião 1,2, Vanessa P. Braganholo 1,

Leia mais

Universidade de Brasília Instituto de Ciências Exatas Departamento de Ciência da Computação

Universidade de Brasília Instituto de Ciências Exatas Departamento de Ciência da Computação Universidade de Brasília Instituto de Ciências Exatas Departamento de Ciência da Computação Políticas de Replicação de Dados no Ambiente de Computação em Nuvem Gabriel Heleno Gonçalves da Silva Monograa

Leia mais

Interoperabilidade entre Bancos de Dados Relacionais e Bancos de Dados NoSQL

Interoperabilidade entre Bancos de Dados Relacionais e Bancos de Dados NoSQL Minicurso: Interoperabilidade entre Bancos de Dados Relacionais e Bancos de Dados NoSQL Geomar A. Schreiner Ronaldo S. Mello Departamento de Informática e Estatística (INE) Programa de Pós-Graduação em

Leia mais

Sistemas Distribuídos. Fundamentos. Nazareno Andrade. Universidade Federal de Campina Grande 02/2008

Sistemas Distribuídos. Fundamentos. Nazareno Andrade. Universidade Federal de Campina Grande 02/2008 Sistemas Distribuídos Fundamentos Nazareno Andrade Universidade Federal de Campina Grande 02/2008 Fundamentos Coordenando processos Construíndo sistemas Sistemas construídos 2 Fundamentos O que são sistemas

Leia mais

Consultas por similaridade em Big Data: alternativas e

Consultas por similaridade em Big Data: alternativas e Consultas por similaridade em Big Data: alternativas e soluções Guilherme José Henrique 1, Daniel dos Santos Kaster 1 1 Departamento de Computação Universidade Estadual de Londrina (UEL) Caixa Postal 10.011

Leia mais

MapReduce - Conceitos e Aplicações

MapReduce - Conceitos e Aplicações 1. Introdução MapReduce - Conceitos e Aplicações Tiago Pedroso da Cruz de Andrade 1 1 Laboratório de Redes de Computadores Instituto de Computação Universidade Estadual de Campinas tiagoandrade@lrc.ic.unicamp.br

Leia mais

Using Big Data to build decision support tools in

Using Big Data to build decision support tools in Using Big Data to build decision support tools in Agriculture Laboratory of Architecture Karen Langona and Computer Networks OSDC PIRE 2013 Edinburgh Workshop Climate and Agricultural Planning Agriculture

Leia mais

Copyright 2012 EMC Corporation. Todos os direitos reservados.

Copyright 2012 EMC Corporation. Todos os direitos reservados. 1 A INFRAESTRUTURA DO FUTURO, HOJE Integrando Greenplum DCA e SAS para permitir estudos analíticos em big data Rafael Aielo Technology Consultant 2 O que é Greenplum? Adquirida pela EMC em julho de 2010

Leia mais

NoSQL. Arthur Azevedo Rafael Benedito

NoSQL. Arthur Azevedo Rafael Benedito NoSQL Arthur Azevedo Rafael Benedito Aviso! O que você vai ver/aprender nessa apresentação: Conceitos de banco de dados NoSQL; Taxonomia de banco de dados NoSQL; Conceitos de Banco de Dados distribuídos;

Leia mais

BIG DATA INTRODUÇÃO. Humberto Sandmann humberto.sandmann@gmail.com

BIG DATA INTRODUÇÃO. Humberto Sandmann humberto.sandmann@gmail.com BIG DATA INTRODUÇÃO Humberto Sandmann humberto.sandmann@gmail.com Apresentação Humberto Sandmann humberto.sandmann@gmail.com Possui graduação em Ciências da Computação pelo Centro Universitário da Faculdade

Leia mais

Arquiteturas Java Pragmá1cas para usar Big Data na Nuvem. Fabiane Bizinella Nardon (@fabianenardon) Fernando Babadopulos (@babadopulos)

Arquiteturas Java Pragmá1cas para usar Big Data na Nuvem. Fabiane Bizinella Nardon (@fabianenardon) Fernando Babadopulos (@babadopulos) Arquiteturas Java Pragmá1cas para usar Big Data na Nuvem Fabiane Bizinella Nardon (@fabianenardon) Fernando Babadopulos (@babadopulos) Nós e Big Data BigDataTailTargetDataScienceMachineLearningHiveHadoopCrunchMongoDBRedisAWS

Leia mais