Algoritmos de Junção Estrela em MapReduce
|
|
- Derek Camarinho
- 5 Há anos
- Visualizações:
Transcrição
1 Algoritmos de Junção Estrela em MapReduce Jaqueline Joice Brito 09 de junho de
2 Modelo Relacional Dados armazenados em um conjunto de tabelas Amplamente utilizado Junção Recuperação de dados de duas ou mais tabelas baseada em relações lógicas Operação custosa SELECT nome, cargo FROM Cliente C, Profissao P WHERE C.cod_profissao = P.cod_profissao 2
3 Processamento Distribuído Otimização Minimização da comunicação entre os nós 3
4 HDFS - Hadoop Distributed File System NameNode DataNode 1 DataNode 2 DataNode 3 DataNode 4 4
5 HDFS - Hadoop Distributed File System NameNode DataNode 1 DataNode 2 DataNode 3 DataNode 4 5
6 HDFS - Hadoop Distributed File System NameNode Metadados DataNode 1 DataNode 2 DataNode 3 DataNode 4 Cada bloco possui 3 réplicas distribuídas entre os DataNodes 6
7 MapReduce casa rio boneca rio dado casa dado boneca dado casa boneca rio rio casa boneca dado 7
8 MapReduce casa rio boneca rio dado casa dado boneca dado casa dado rio rio casa rio dado casa rio boneca rio dado casa dado boneca dado casa dado rio rio casa rio dado 8
9 MapReduce chave casa,1 rio, 1 boneca, 1 rio,1 valor casa rio boneca rio dado casa dado boneca dado casa dado rio rio casa rio dado casa rio boneca rio dado casa dado boneca dado casa dado rio rio casa rio dado dado,1 casa, 1 dado, 1 boneca, 1 dado,1 casa, 1 dado, 1 rio, 1 rio,1 casa, 1 rio, 1 dado, 1 9
10 MapReduce chave valor casa,1 rio, 1 boneca, 1 rio,1 boneca, 1 boneca, 1 casa rio boneca rio dado casa dado boneca dado casa dado rio rio casa rio dado casa rio boneca rio dado casa dado boneca dado casa dado rio rio casa rio dado dado,1 casa, 1 dado, 1 boneca, 1 dado,1 casa, 1 dado, 1 rio, 1 rio,1 casa, 1 rio, 1 dado, 1 casa,1 casa, 1 casa, 1 casa, 1 dado, 1 dado, 1 dado, 1 dado, 1 dado, 1 rio, 1 rio, 1 rio, 1 rio, 1 rio, 1 10
11 MapReduce casa,1 rio, 1 boneca, 1 rio,1 boneca, 1 boneca, 1 casa rio boneca rio dado casa dado boneca dado casa dado rio rio casa rio dado casa rio boneca rio dado casa dado boneca dado casa dado rio rio casa rio dado dado,1 casa, 1 dado, 1 boneca, 1 dado,1 casa, 1 dado, 1 rio, 1 rio,1 casa, 1 rio, 1 dado, 1 casa,1 casa, 1 casa, 1 casa, 1 dado, 1 dado, 1 dado, 1 dado, 1 dado, 1 rio, 1 rio, 1 rio, 1 rio, 1 rio, 1 boneca, 2 casa, 4 dado, 5 rio, 5 11
12 Modelo MapReduce Otimização Redução da comunicação (fase de shuffling) Minimização do número de jobs MapReduce Mappers... Shuffling Reducers... 12
13 Junção em MapReduce Map-side Join Junção na função Map Reduce-side Join Junção na função Reduce 13
14 Map-side Join Junção é realizada na função Map SELECT a, b FROM S, T WHERE S.c = T.c S s c a T t c b
15 Map-side Join Junção é realizada na função Map SELECT a, b FROM S, T WHERE S.c = T.c S s c a S 1 T 1 s c a S 2 s c a T t c b t c b T 2 t c b
16 Map-side Join Mapper 1 S 1 t c b T 1 s c a Mapper 2 S 2 T 2 s c a t c b Dados são particionados e ordenados pela chave de junção (atributo c) Blocos correspondentes de cada arquivo são processados por uma única tarefa Mapper A função Map é aplicada sobre um dos blocos (ex: S 1 ), enquanto o outro bloco correspondente (ex: T 1 ) é lido dentro da tarefa Mapper Cada Mapper possui os dados necessários para realizar a junção de seus blocos 16
17 Map-side Join Memory-backed Join Mapper 1 S 1 s c a T t c b Dados em memória primária local Tabela menor (ex: tabela T) é armazenada na memória primária local de cada nó Mapper 2 S 2 s c a T t c b Blocos da tabela maior (ex: S) são processados nos diferentes mappers Cada mappers tem acesso a todos os dados da tabela menor (ex: tabela T) 17
18 Reduce-side Join Mapper 1 entrada saída Mapper 2 entrada saída S T s c a key value t c b Key value s, t, s,5 8 s,6 7 s, t,4 1 t,5 4 t,6 4 idenbtificador da tabela S atributo de junção c atributo a idenbtificador da tabela T atributo de junção c atributo b 18
19 Reduce-side Join Mapper 1 Mapper 2 S T s c a key value t c b Key value s, t, s, t, s, t, s, t,6 4 Reducer 1 Reducer 2 key value s,4 7 s,5 8 t,4 2 t,4 1 Entrada do Reducer 1 key value s,6 7 s,6 4 t,6 4 Entrada do Reducer 2 t,5 4 19
20 Reduce-side Join Mapper 1 Mapper 2 S T s c a key value t c b Key value s, t, s, t, s, t, s, t,6 4 Reducer 1 Reducer 2 key value s,4 7 saída key value saída s,5 8 7, 2 s,6 7 7, 4 t,4 2 7, 1 s,6 4 4, 4 t,4 1 8, 4 t,6 4 t,5 4 20
21 Junção em MapReduce Map-side Join Desvantagem: aplicável quando o conjunto pode ser ordenado e particionado pelo atributo de junção Memory-backed Join Desvantagem: aplicável quando uma das tabelas é pequena e cabe na memória primária de cada nó Vantagem: processamento local, dispensando a fase de shuffling Reduce-side Join Vantagem: aplicável em qualquer conjunto de tabelas Desvantagem: necessidade da fase de shuffling 21
22 Data Warehouse Banco de dados voltado ao processamento analítico para a tomada de decisão Modelagem multidimensional Medidas numéricas: objetos de análise Dimensões: perspectiva/contexto para as análises (fornecedor, cliente) C F 4 2 C 3 F C 2 1 C 1 unidades vendidas (cliente) (fornecedor) (produto, cliente) P 3 P 2 P 3 P 2 (produto, fornecedor) P 1 P 1 C 4 C 3 C 2 C 1 (produto) F 1 F 2 22
23 Esquema Estrela Star Schema Benchmark (SSB) 23
24 Consulta de Junção Estrela Consulta Q3.2 do SSB SELECT c_city, s_city, d_year, SUM(lo_revenue) as revenue FROM Lineorder, Supplier, Customer, Date WHERE lo_custkey = c_custkey AND lo_suppkey = s_suppkey AND lo_orderdate = d_datekey AND c_nation = UNITED STATES AND s_nation = UNITED STATES AND d_year >= 1992 AND d_year <= 1997 GROUP BY c_city, s_city, d_year ORDER BY c_city, s_city, d_year 24
25 Consulta de Junção Estrela Consulta Q3.2 do SSB SELECT c_city, s_city, d_year, SUM(lo_revenue) as revenue FROM Lineorder, Supplier, Customer, Date WHERE lo_custkey = c_custkey AND lo_suppkey = s_suppkey AND lo_orderdate = d_datekey AND c_nation = UNITED STATES AND s_nation = UNITED STATES AND d_year >= 1992 AND d_year <= 1997 GROUP BY c_city, s_city, d_year ORDER BY c_city, s_city, d_year cláusulas de junção cláusulas de filtragem 25
26 Sequência de Junções Binárias em MapReduce Um job MapReduce para cada junção Lineorder Supplier Job 1 Customer Job 2 Date Job 3 26
27 Algoritmo de Afrati e Ullman (2010) Proposta: realizar todas as junções em apenas um job S(s) U(s, t) T(t) A O domínio do atributo s é dividido em A blocos, enquanto que o domínio de t é dividido em B blocos O número de processos reducers é dado por AB a i =0 a i =1 a i =2 B b i =0 b i =1 (0,0) (0,1) (1,0) (1,1) (2,0) (2,1) Supondo que A=3 e B=2, temos um total de 6 reducers Cada processo reduce é identificado por um par (a i, b i ) 27
28 Algoritmo de Afrati e Ullman (2010) Proposta: realizar todas as junções em apenas um job S(s) U(s, t) T(t) O processo reduce para o qual uma tupla deve ser enviada é identificado por dois valores, a e b, determinados a partir dos atributos s e t (atributos de junção) b i (0,0) (0,1) A=3 e B=2 f(a i, b i ) = a i *B + b i b i 0 1 a i (1,0) (1,1) a i 2 3 (2,0) (2,1)
29 Algoritmo de Afrati e Ullman (2010) Proposta: realizar todas as junções em apenas um job S(s) U(s, t) T(t) Para cada valor s i do atributo s, a i = mod(s i, A) Para cada valor t i do atributo t, b i = mod(t i, B) Reducer identificado por uma função f(a i, b i ) = a i *B + b i b i (0,0) (0,1) A=3 e B=2 b i 0 1 a i (1,0) (1,1) a i 2 3 (2,0) (2,1)
30 Algoritmo de Afrati e Ullman (2010) Proposta: realizar todas as junções em apenas um job S(s) U(s, t) T(t) Cada tupla de S precisa ser enviada para todos os reducers identificados por um determinado valor a i Cada tupla de T precisa ser enviada para todos os reducers identificados por um um determinado valor b i b i (0,0) (0,1) A=3 e B=2 b i 0 1 a i (1,0) (1,1) a i 2 3 (2,0) (2,1)
31 Algoritmo de Afrati e Ullman (2010) Exemplo: s s t S(s) S U T 4 10 U(s, t) T(t) t Id do processo reduce f(a i, b i ) = a i *B + b i A=3 e B=2 Tuplas da tabela U são enviadas para um único reduce S U T b i s a i = 1 a i = 2 s t a i = 2 b i = 1 a i = 0 b i = 1 t b i = 1 b i = 1 (0,0) (0,1) (1,0) (1,1) a i a i = 0 a i = 1 a i = 1 b i = 0 a i = 1 b i = 0 b i = 0 b i = 0 (2,0) (2,1) 31
32 Algoritmo de Afrati e Ullman (2010) Exemplo: s s a i = 1 a i = 2 a i = 0 a i = 1 S U T s t s S(s) t a i = 2 b i = 1 a i = 0 b i = 1 a i = 1 b i = 0 a i = 1 b i = 0 t S U T U(s, t) T(t) t b i = 1 b i = 1 b i = 0 b i = 0 Id do processo reduce f(a i, b i ) = a i *B + b i Cada tupla da tabela S é enviada para B reducers (todos reducers de uma mesma linha) (0,0) (0,1) (1,0) (1,1) (2,0) (2,1) b i a i A=3 e B=2 32
33 Algoritmo de Afrati e Ullman (2010) Exemplo: S U T s s t S(s) 4 10 U(s, t) T(t) t Id do processo reduce f(a i, b i ) = a i *B + b i A=3 e B=2 Cada tupla da tabela T é enviada para A reducers (todos reducers de uma mesma coluna) S U T s a i = 1 a i = 2 a i = 0 a i = 1 s t a i = 2 b i = 1 a i = 0 b i = 1 a i = 1 b i = 0 a i = 1 b i = 0 t b i = 1 b i = 1 b i = 0 b i = 0 (0,0) (0,1) (1,0) (1,1) (2,0) (2,1) b i a i 33
34 Algoritmo de Afrati e Ullman (2010) Reducer 0 Reducer 1 Reducer 2 Chave Valor Chave Valor Chave Valor S 3 null S 1 null S 3 null T 5 null S 4 null T 8 null T 7 null T 8 null T 10 null U 3,7 null T 10 null U 1,8 null U 4,10 null Reducer 3 Reducer 4 Reducer 5 Chave Valor Chave Valor Chave Valor S 1 null S 2 null S 2 null S 4 null T 8 null T 5 null T 5 null T 10 null T 7 null T 7 null U 2,5 null 34
35 Algoritmo de Afrati e Ullman (2010) Reducer 0 Reducer 1 Reducer 2 Chave Valor Chave Valor Chave Valor S 3 null S 1 null S 3 null T 5 null S 4 null T 8 null T 7 null T 8 null T 10 null U 3,7 null T 10 null U 1,8 null U 4,10 null Reducer 3 Reducer 4 Reducer 5 Chave Valor Chave Valor Chave Valor S 1 null S 2 null S 2 null S 4 null T 8 null T 5 null T 5 null T 10 null T 7 null T 7 null U 2,5 null 35
36 Algoritmo de Afrati e Ullman (2010) s t 3 7 Reducer 1 Reducer 2 Chave Valor Chave Valor S 3 null S 1 null T 5 null S 4 null T 7 null T 8 null U 3,7 null T 10 null U 1,8 null U 4,10 null s t s t 2 5 Reducer 5 Chave Valor S 2 null T 5 null T 7 null U 2,5 null 36
37 Algoritmo de Afrati e Ullman (2010) Vantagem realiza todas as junções em apenas um job MapReduce Desvantagem Replicação de dados das tabelas de dimensão (S e T no exemplo) Caso existam filtros nas tabelas de dimensão, tuplas da tabela de fatos (U no exemplo) são enviadas para os reducers desnecessariamente 37
38 Referências Han, H.; Jung, H.; Eom, H.; Yeom, H. Y. Scatter-gather-merge: An efficient star-join query processing algorithm for data-parallel frameworks. Cluster Computing, v. 14, n. 2, p , Afrati, F. N.; Ullman, J. D. Optimizing joins in a map-reduce environment. In: Proceedings of the 13th International Conference on Extending Database Technology (EDBT 2010), p Tao, Y., Zhou, M., Shi, L., Wei, L., Cao, Y.: Optimizing multi-join in cloud environment. In: Proceedings of the IEEE International Conference on High Performance Computing and Communications & 2013 IEEE International Conference on Embedded and Ubiquitous Computing. pp (2013). Thusoo, A., Sarma, J.S., Jain, N., Shao, Z., Chakka, P., Zhang, N., Anthony, S., Liu, H., Murthy, R.: Hive - a petabyte scale data warehouse using hadoop. In: ICDE. pp (2010)5. Zhang, C., Wu, L., Li, J.: Efficient processing distributed joins with bloomfilter using mapreduce. Int J Grid Ditrib Comput 6(3), (2013). 38
39 Obrigada 39
COMPUTAÇÃO EM NUVEM E PROCESSAMENTO MASSIVO DE DADOS Conceitos, tecnologias e aplicações
COMPUTAÇÃO EM NUVEM E PROCESSAMENTO MASSIVO DE DADOS Conceitos, tecnologias e aplicações Jaqueline Joice Brito Slides em colaboração com Lucas de Carvalho Scabora Sumário Computação em Nuvem Definição
Leia maisCOMPUTAÇÃO EM NUVEM E PROCESSAMENTO MASSIVO DE DADOS Conceitos, tecnologias e aplicações
COMPUTAÇÃO EM NUVEM E PROCESSAMENTO MASSIVO DE DADOS Conceitos, tecnologias e aplicações Jaqueline Joice Brito Slides em colaboração com Lucas de Carvalho Scabora Sumário Computação em Nuvem Definição
Leia maisFastBit e Índice Bitmap de Junção. Anderson Chaves Carniel Prof. Thiago Luís Lopes Siqueira
FastBit e Índice Bitmap de Junção Anderson Chaves Carniel Prof. Thiago Luís Lopes Siqueira AGENDA Introdução Instalação Índice Bitmap de Junção Construção do índice Consultas sobre o índice Introdução
Leia maisAutor 1 Orientador: 1. dia de mês de ano
Título Autor 1 Orientador: 1 1 Laboratório de Sistemas de Computação Universidade Federal de Santa Maria dia de mês de ano Roteiro Introdução Fundamentação Desenvolvimento Resultados Conclusão e Trabalhos
Leia maisHaddop, MapReduce e Spark
Haddop, MapReduce e Spark Fabrício Olivetti de França Universidade Federal do ABC Tópicos 1. Conceitos Básicos 2. MapReduce 3. Spark 4. Transformações Básicas 5. Ações Básicas 1 Conceitos Básicos Hadoop
Leia maisÍndice Bitmap e Indexação de Ambientes de Data Warehousing
Índice itmap e Indexação de Ambientes de Data Warehousing Jaqueline Joice rito jjbrito@icmc.usp.br 3 de Junho de 23 Roteiro Índice itmap Técnicas de otimização Adaptação da apresentação de Sérgio L. Díscola
Leia maisSB-index: Um Índice Espacial baseado em Bitmap para Data Warehouse Geográfico
SB-index: Um Índice Espacial baseado em Bitmap para Data Warehouse Geográfico Thiago Luís Lopes Siqueira Ricardo Rodrigues Ciferri Orientador (UFSCar) Valéria Cesário Times Co-orientadora (UFPE) Cristina
Leia maisApache Spark I NTRODUÇÃO À C OMPUTAÇÃO PARALELA E D ISTRIBUÍDA
Apache Spark CARLOS EDUARDO MART INS RELVAS I NTRODUÇÃO À C OMPUTAÇÃO PARALELA E D ISTRIBUÍDA Apache Hadoop Mudou a forma de armazenamento e processamento de dados em um cluster de computadores, trazendo
Leia maisBruno Antunes da Silva UFSCar - Sorocaba
Bruno Antunes da Silva UFSCar - Sorocaba Introdução HDFS Arquitetura Leitura e escrita Distribuição de nós Controle de réplicas Balancer MapReduce Conclusão Aplicações web com grandes quantidades de dados
Leia maisUm Servidor Escalável para Bases Massivas de
Um Servidor Escalável para Bases Massivas de Dados Geográficos Leandro da Silva Santos Orientador: Tiago Garcia de Senna Carneiro Co-orientador: Ricardo Augusto Rabelo Oliveira Departamento de Computação
Leia maisUso de Map Reduce no Processamento de Joins Sobre Dados Espaciais em Árvores R-Tree Distribuídas
Uso de Map Reduce no Processamento de Joins Sobre Dados Espaciais em Árvores R-Tree Distribuídas Thiago Borges de Oliveira 1, Vagner José Rodrigues do Sacramento 1 1 Instituto de Informática Universidade
Leia maisAVALIAÇÃO DE DESEMPENHO DE PROCESSAMENTO DISTRIBUÍDO EM LARGA ESCALA COM HADOOP
AVALIAÇÃO DE DESEMPENHO DE PROCESSAMENTO DISTRIBUÍDO EM LARGA ESCALA COM HADOOP Débora Stefani Lima de Souza dsls@cin.ufpe.br Orientador: Dr. Paulo Romero Martins Maciel INTRODUÇÃO Nem sempre os dados
Leia maisARMAZENAMENTO E PROCESSAMENTO DE BANCOS DE DADOS RELACIONAIS
ARMAZENAMENTO E PROCESSAMENTO DE BANCOS DE DADOS RELACIONAIS EDUARDO C. DE ALMEIDA 1 EDUARDO@INF.UFPR.BR UFPR LABORATÓRIO DE BANCO DE DADOS VISÃO GERAL DA APRESENTAÇÃO Entender como um banco de dados aparenta
Leia maisIntrodução Ferramentas Unix MapReduce Outras Ferramentas. Batch Processing. Fabiola Santore. Universidade Federal do Paraná
Fabiola Santore Universidade Federal do Paraná Sumário 1. Introdução 2. Ferramentas Unix 2.1 Análise de log 2.2 Filosofia Unix 3. MapReduce 3.1 Procedimento 3.2 Reduce: Joins e Agrupamento 3.3 Análise
Leia maisBanco de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri. Banco de Dados Processamento e Otimização de Consultas
Processamento e Otimização de Consultas Banco de Dados Motivação Consulta pode ter sua resposta computada por uma variedade de métodos (geralmente) Usuário (programador) sugere uma estratégia para achar
Leia maisSumário. Referências utilizadas. Introdução. MAFIA: Merging of Adaptive Finite Intervals. Introdução Visão Geral e Objetivos do MAFIA
Sumário : Merging of Adaptive Finite Intervals Elaine Ribeiro de Faria Análise de Agrupamento de Dados ICMC-USP Dezembro 2010 Introdução Visão Geral e Objetivos do Algoritmo Grid Adaptativo Algoritmo Algoritmo
Leia maisPrIntCloud. Disciplina: Procedência de Dados e Data Warehousing. Aluna: Shermila Guerra Santa Cruz. 16/04/13
PrIntCloud Disciplina: Procedência de Dados e Data Warehousing. Aluna: Shermila Guerra Santa Cruz. 16/04/13 Roteiro 1. Fundamentação Teórica A.- Cloud Computing B.- Hadoop C.- MapReduce D.- NoSql 2. Proposta
Leia maisSobre a execução de workflows científicos sobre diferentes estrategias de dados de entrada - Uma Avaliação Experimental
Sobre a execução de workflows científicos sobre diferentes estrategias de dados de entrada - Uma Avaliação Experimental Douglas Oliveira Cristina Boeres Fábio Laboratório Nacional de Computação Científica
Leia maisMapReduce Mapeando e reduzindo
MapReduce Mapeando e reduzindo Prof. Fabrício Olivetti de França Universidade Federal do ABC Motivação Vimos até então que nosso maior problema é a quantidade de dados. O processamento não pode ser distribuído
Leia maisProcessamento de INDUSTRIA 4.0. Big Data. Aula #10 - Processamento distribuído de dados FONTE: DELIRIUM CAFE EDUARDO CUNHA DE ALMEIDA
INDUSTIA 4.0 Processamento de Big Data FONTE: DELIIU CAFE Aula #10 - Processamento distribuído de dados EDUADO CUNHA DE ALEIDA Agenda - Divisão do problema - apeduce - Hadoop - SQL-on-Hadoop: Hive 2 Divisão
Leia maisANÁLISE E PROJETO DE BANCO DE DADOS
ANÁLISE E PROJETO DE BANCO DE DADOS SQL FELIPE G. TORRES SQL A linguagem SQL (Struct Query Language) é utilizada como padrão em bancos de dados relacionais. Seu desenvolvimento foi originalmente no início
Leia maisBCD29008 Banco de dados
BCD29008 Banco de dados Prof. Emerson Ribeiro de Mello Instituto Federal de Santa Catarina IFSC campus São José mello@ifsc.edu.br http://docente.ifsc.edu.br/mello/bcd 21 de fevereiro de 2018 1/24 Apresentação
Leia maisBUSINESS INTELLIGENCE E DATA WAREHOUSE. Big Data Conceitos, Técnicas, Ferramentas e Arquitetura. tutorpro.com.br cetax.com.br
BUSINESS INTELLIGENCE E DATA WAREHOUSE Big Data Conceitos, Técnicas, Ferramentas e Arquitetura tutorpro.com.br cetax.com.br Quem somos 2 3 Objetivos do Curso de Big Data 4 Alinhamento das expectativas
Leia maisFramework para Deduplicação de Dados com Apache Spark
Framework para Deduplicação de Dados com Apache Spark César Magrin - magrin@inf.ufpr.br Disciplina: Metodologia Científica - CI860 Professor: Alexandre Direne Sumário 1. Qualidade de Dados 2. Deduplicação
Leia maisBCD29008 Banco de dados
BCD29008 Banco de dados Prof. Emerson Ribeiro de Mello Instituto Federal de Santa Catarina IFSC campus São José mello@ifsc.edu.br http://docente.ifsc.edu.br/mello/bcd 31 de julho de 2017 1/24 Apresentação
Leia maisAnálise de Estratégias de Acesso a Grandes Volumes de Dados
paper:69 Análise de Estratégias de Acesso a Grandes Volumes de Dados Douglas Ericson M. de Oliveira 1, Cristina Boeres 1, Fábio Porto 2 1 Instituto de Computação Universidade Federal Fluminense (UFF) 2
Leia maisTecnologias Oracle para DW Visões Materializadas no Oracle
Tecnologias Oracle para DW Visões Materializadas no Oracle Processamento Analítico de Dados Prof. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri Bruno Tomazela Renata Miwa Tsuruda
Leia maisTécnicas de Big Data e Projeção de Medidas de Risco para de Negociação em Alta Frequência
12º CONTECSI Conferência Internacional sobre Sistemas de Informação e Gestão de Tecnologia Técnicas de Big Data e Projeção de Medidas de Risco para de Negociação em Alta Frequência Alcides Carlos de Araújo
Leia maisMétodos de Acesso Métrico
Métodos de Acesso Métrico http://www.icmc.usp.br/img/novafaixa.png Arthur Emanuel de O. Carosia Profa. Dra. Cristina Dutra de Aguiar Ciferri Índice Conceitos Básicos Métodos de Acesso Onion-tree 2 Índice
Leia maisMATA60 BANCO DE DADOS Aula 10- Indexação. Prof. Daniela Barreiro Claro
MATA60 BANCO DE DADOS Aula 10- Indexação Prof. Daniela Barreiro Claro Indexação Indexação em SQL; Vantagens e Custo dos Índices; Indexação no PostgreSQL; FORMAS - UFBA 2 de X; X=23 Indexação Sintaxe: create
Leia maisBancos de Dados IV. OLAP e Cubos de Dados. Rogério Costa
Bancos de Dados IV OLAP e Cubos de Dados Rogério Costa rogcosta@inf.puc-rio.br 1 OLAP Online Analytical Processing (OLAP) Análise interativa de dados, permitindo que dados sejam sumarizados e vistos de
Leia maisProcessamento da Consulta. Processamento da Consulta
Processamento da Consulta Equipe 05 Adriano Vasconcelos Denise Glaucia Jose Maria Marcigleicy Processamento da Consulta Refere-se ao conjunto de atividades envolvidas na extra de dados de um banco de dados.
Leia maisQUESTIONÁRIO SOBRE HADOOP LEITURA DO MATERIAL FORNECIDO ALUNO/GRUPO ;
QUESTIONÁRIO SOBRE HADOOP LEITURA DO MATERIAL FORNECIDO ALUNO/GRUPO ; LEIA O MATERIAL ANTES DE FAZER O EXEMPLO DIDÁTICO. AS QUESTÕES ABAIXO PODEM SER RESPONDIDAS, USANDO, PREFERENCIALMENTE, SUA PRÓPRIAS
Leia maisAula 02. Evandro Deliberal
Aula 02 Evandro Deliberal evandro@deljoe.com.br https://www.linkedin.com/in/evandrodeliberal Data Warehouse; Ambiente de Data Warehouse; Processos e ferramentas envolvidas; Arquiteturas de DW; Granularidade;
Leia maisImplementação do Conceito Big Data Utilizando Processamento Paralelo.
FACULDADE DE TECNOLOGIA DO ESTADO DE SÃO PAULO Curso Superior de Tecnologia em Sistemas para Internet Curso Superior de Tecnologia em Análise e Desenvolvimento de Sistemas Implementação do Conceito Big
Leia maisRápida revisão do Modelo Relacional
Rápida revisão do Modelo Relacional Conceito de relação Tuplas e atributos Rápida revisão do Modelo Relacional Regras de integridade Entidade: Deve existir uma chave primária com valor único e não-nulo.
Leia maisTecnologias Oracle para DW Visões Materializadas no Oracle
Tecnologias Oracle para DW Visões Materializadas no Oracle Prof. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri Bruno Tomazela Renata Miwa Tsuruda Obje%vo Criar e u%lizar visões
Leia maisCapítulo 9: Sistemas de banco de dados
Capítulo 9: Sistemas de banco de dados Ciência da computação: Uma visão abrangente 11a Edition by J. Glenn Brookshear Copyright 2012 Pearson Education, Inc. Database (Banco de Dados) Uma coleção de dados
Leia maisModelagem Multidimensional - Nível Físico -
Modelagem Multidimensional - Nível Físico - Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Arquitetura de 3 Camadas esquema operações conceitual metáfora do cubo de dados
Leia maisArmazenamento Distribuído de Dados Seguros para Efeito de Sistemas de Identificação Civil
1 Armazenamento Distribuído de Dados Seguros para Efeito de Sistemas de Identificação Civil Acadêmico: Matheus Magnusson Bolo Disciplina: Segurança Computacional 2 Contexto WGID IV Workshop de Gestão de
Leia maisNoSQL Apache Cassandra para DBAs. Conceitos básicos que todo DBA deve conhecer sobre Apache Cassandra.
NoSQL Apache Cassandra para DBAs Conceitos básicos que todo DBA deve conhecer sobre Apache Cassandra. Apresentação Pessoal Ronaldo Martins: Há mais de 14 anos dedicado à tecnologias Oracle, passando pelas
Leia maisUma Abordagem para Processamento Distribuído de Junção por Similaridade sobre Múltiplos Atributos
paper:174658 Uma Abordagem para Processamento Distribuído de Junção por Similaridade sobre Múltiplos Atributos Diego Junior do Carmo Oliveira 1, Felipe Ferreira Borges 1, Leonardo Andrade Ribeiro 1 1 Instituto
Leia maisSQL. Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri
SQL Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri Arquitetura de 3 Camadas esquema operações conceitual metáfora do cubo de dados Cube
Leia maisHadoopDB. Edson Ie Serviço Federal de Processamento de Dados - SERPRO
HadoopDB Edson Ie Serviço Federal de Processamento de Dados - SERPRO Motivação Grandes massas de dados precisam ser processadas em clusters: 1 nó: 100TB@59MB/s = 23 dias Cluster com 1000 nós 33 min!!!
Leia maisBig Data Open Source com Hadoop
Big Data Open Source com Hadoop Palestrante: Marcio Junior Vieira marcio@ambientelivre.com.br Realização: Marcio Junior Vieira 14 anos de experiência em informática, vivência em desenvolvimento e análise
Leia maisComo mencionado, David J. DeWitt e Jim Gray [2] afirmam que um sistema paralelo ideal deve apresentar duas propriedades chave:
6 ERAD 2007 Porto Alegre, 16 a 19 de janeiro de 2007 3.1. Introdução Aplicações de alto desempenho que fazem uso de Sistemas Gerenciadores de Banco de Dados devem se apoiar naqueles que provêem suporte
Leia maisSubconsulta na Cláusula FROM
Subconsulta na Cláusula FROM Gera uma tabela derivada a partir de uma ou mais tabelas, para uso na consulta externa otimização: filtra linhas e colunas de uma tabela que são desejadas pela consulta externa
Leia maisSumário. Definição do Plano de Execução
Sumário 1 Introdução ao Processamento de Consultas 2 Otimização de Consultas 3 Plano de Execução de Consultas Introdução a Transações 5 Recuperação de Falhas 6 Controle de Concorrência 7 Fundamentos de
Leia maisModelagem Multidimensional - Nível Físico -
Modelagem Multidimensional - Nível Físico - Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Arquitetura de 3 Camadas esquema operações conceitual metáfora do cubo de dados
Leia maisUma introdução ao Apache Hama
Uma introdução ao Apache Hama O modelo BSP nas nuvens Thiago Kenji Okada 1 1 Departamento de Ciências da Computação (DCC) Instituto de Matemática e Estatística (IME) Universidade de São Paulo (USP) MAC5742
Leia mais3 Plano de Execução de Consultas
Sumário 1 Introdução ao Processamento de Consultas 2 Otimização de Consultas 3 Plano de Execução de Consultas 4 Introdução a Transações 5 Recuperação de Falhas 6 Controle de Concorrência 7 Fundamentos
Leia maisSQL. Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri
SQL Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri Arquitetura de 3 Camadas esquema operações conceitual metáfora do cubo de dados Cube
Leia maisSistemas de Bases de Dados 1.º teste (com consulta limitada: 2 folhas identificadas) - Duração: 2 horas
DI-FCT/UNL 28 de abril de 2018 Sistemas de Bases de Dados 1.º teste (com consulta limitada: 2 folhas identificadas) - Duração: 2 horas N. º : Nome: Grupo 1 (7 valores) 1 a) Para cada uma das seguintes
Leia maisAnderson Chaves Carniel Profa. Dra. Cristina Dutra de Aguiar Ciferri
Anderson Chaves Carniel Profa. Dra. Cristina Dutra de Aguiar Ciferri 1 2 Introdução Linguagem de consulta à base de dados multidimensionais criada pela Microsoft em 1998 Parte de um padrão industrial,
Leia maisÁlgebra Relacional. Conjunto de operações que usa uma ou duas relações como entrada e gera uma relação de saída. Operações básicas:
Álgebra Relacional Conjunto de operações que usa uma ou duas relações como entrada e gera uma relação de saída operação (REL 1 ) REL 2 operação (REL 1,REL 2 ) REL 3 Operações básicas: seleção projeção
Leia maisEscalonamento de Aplicações BoT em Ambiente de Nuvem
Escalonamento de Aplicações BoT em Ambiente de Nuvem Maicon Ança dos Santos 1 Fernando Angelin 1 Gerson Geraldo H. Cavalheiro 1 1 Universidade Federal de Pelotas {madsantos,fangelin,gerson.cavalheiro}@inf.ufpel.edu.br
Leia maisModelagem Multidimensional - Nível Físico -
Modelagem Multidimensional - Nível Físico - Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri Arquitetura de 3 Camadas esquema operações
Leia maisMongoDB BANCO DE DADOS NÃO RELACIONAL ORIENTADO A DOCUMENTOS BANCO DE DADOS AVANÇADOS VALÉRIA TIMES
BANCO DE DADOS NÃO RELACIONAL ORIENTADO A DOCUMENTOS BANCO DE DADOS AVANÇADOS VALÉRIA TIMES Origem: Humongous Significa Gigantesco Alguém conhece MongoDB? Sim! Já trabalhou? O que é? Banco de dados (BD)
Leia maisMATA60 BANCO DE DADOS Aula: Otimização. Prof. Daniela Barreiro Claro
MATA60 BANCO DE DADOS Aula: Otimização Prof. Daniela Barreiro Claro Introdução a Otimização SQL, SQL3 e OQL são linguagens declarativas O SGBD deve processar e otimizar estas consultas antes delas serem
Leia maisPÓS GRADUAÇÃO UNIVERSIDADE POSITIVO CAMYLA CRISTIANE BALTAZAR WOJCIK
PÓS GRADUAÇÃO UNIVERSIDADE POSITIVO CAMYLA CRISTIANE BALTAZAR WOJCIK UMA PROPOSTA DE ARQUITETURA DE DADOS DE QUALIFICAÇÃO DE AUDIÊNCIA MODELADOS NO HIVE COM BUCKETS E PARTITIONS CURITIBA 2018 SUMÁRIO 1.
Leia maisMySql. Introdução a MySQL. Andréa Garcia Trindade
MySql Introdução a MySQL Andréa Garcia Trindade Introdução O que é Banco de Dados SGBD MYSQL Tipos de Tabelas Tipos de Dados Linguagem SQL Comandos SQL O que é um Banco de Dados? Conjuntos de dados Grupo
Leia maisInformática I. Aula 8. Aula 8-25/09/2006 1
Informática I Aula 8 http://www.ic.uff.br/~bianca/informatica1/ Aula 8-25/09/2006 1 Ementa Histórico dos Computadores Noções de Hardware e Software Microprocessadores Sistemas Numéricos e Representação
Leia maisEstudo de implementação de um cluster utilizando apache hadoop. Giovanni Furlanetto
Estudo de implementação de um cluster utilizando apache hadoop Giovanni Furlanetto 1470175 Sumário Introdução Metodologia de Pesquisa Revisão Bibliográfica Resultados Conclusão Referências Introdução Considerando
Leia maisSLK: Uma Ferramenta para Monitoramento e Análise do Consumo de Energia em Processamento de Consultas em MapReduce
SLK: Uma Ferramenta para Monitoramento e Análise do Consumo de Energia em Processamento de Consultas em MapReduce Flaviene Scheidt de Cristo 1, Edson Ramiro Lucas Filho 1, Antonio Tadeu Gomes 2 1 Universidade
Leia maisSistemas de Bases de Dados 1.º teste (com consulta limitada: 2 folhas identificadas) - Duração: 2 horas
DI-FCT/UNL 28 de abril de 2018 Sistemas de Bases de Dados 1.º teste (com consulta limitada: 2 folhas identificadas) - Duração: 2 horas N. º : Nome: Grupo 1 (7 valores) 1 a) Para cada uma das seguintes
Leia maisBenjamin Bengfort Jenny Kim
Benjamin Bengfort Jenny Kim Novatec Authorized Portuguese translation of the English edition of Data Analytics with Hadoop, ISBN 9781491913703 2016 Benjamin Bengfort, Jenny Kim. This translation is published
Leia maisBases de Dados. Álgebra Relacional II Junções, agregações, vistas. P. Serendero,
Bases de Dados Álgebra Relacional II Junções, agregações, vistas P. Serendero, 2011-13 1 JUNÇÕES OU JOINS em SQL - R S A condição do JOIN é especificada na claúsula ON ou USING,, ou implicitamente
Leia maisBases de Dados. Algoritmos. Custo de operação. Algoritmos de selecção. Algoritmo de ordenação. Algoritmos de junção.
Bases de Dados Algoritmos Custo de operação Algoritmos de selecção Algoritmo de ordenação Algoritmos de junção Outras operações Materialização e pipelining 2 1 Bases de Dados Algoritmos de selecção Algoritmos
Leia maisOLAP. Introdução. Cristina C. Vieira Departamento de Engenharia Eletrónica e Informática
OLAP Introdução Cristina C. Vieira Departamento de Engenharia Eletrónica e Informática OLAP Online analytical processing Existem dois tipos distintos de processamento sobre bases de dados: OLTP Online
Leia maisAvaliação do Star Schema Benchmark aplicado a bancos de dados NoSQL distribuídos e orientados a colunas. Lucas de Carvalho Scabora
Avaliação do Star Schema Benchmark aplicado a bancos de dados NoSQL distribuídos e orientados a colunas Lucas de Carvalho Scabora SERVIÇO DE PÓS-GRADUAÇÃO DO ICMC-USP Data de Depósito: 30 / 05 / 2016
Leia maisProcessamento e Otimização de Consultas. Msc. Simone Dominico Orientador: Dr. Eduardo Cunha de Almeida PPGINF - UFPR
Processamento e Otimização de Consultas Msc. Simone Dominico Orientador: Dr. Eduardo Cunha de Almeida PPGINF - UFPR Conteúdo Processamento de consultas; Introdução Etapas no Processamento de Consultas
Leia maisÀ minha família. i Agradecimentos Este trabalho não estaria concluído sem apresentar os meus mais sinceros agradecimentos a todos aqueles que contribuíram para a elaboração deste trabalho. Agradeço, primeiramente,
Leia maisInformática Parte 10 Prof. Márcio Hunecke
Escriturário Informática Parte 10 Prof. Márcio Hunecke Informática CONCEITOS DE MAPREDUCE E HDFS/HADOOP/YARN 2.7.4 Big Data O termo Big Data refere-se a um grande conjunto de dados armazenados e baseia-se
Leia mais14/03/12. Fragmentação Vertical. Projeto de Bancos de Dados Distribuídos (Parte 02) Complexidade. Objetivo. Complexidade. Abordagens Heurísticas
Fragmentação Vertical Projeto de Bancos de Dados Distribuídos (Parte 02) IN1128/IF694 Bancos de Dados Distribuídos e Móveis Ana Carolina Salgado acs@cin.ufpe.br Bernadette Farias Lóscio bfl@cin.ufpe.br
Leia maisInteroperabilidade entre Bancos de Dados Relacionais e Bancos de Dados NoSQL (Parte 2)
Minicurso: Interoperabilidade entre Bancos de Dados Relacionais e Bancos de Dados NoSQL (Parte 2) Geomar A. Schreiner - schreiner.geomar@posgrad.ufsc.br Ronaldo S. Mello r.mello@ufsc.br Departamento de
Leia maisAvaliação do Tempo de Processamento e Comunicação via Rotinas MPI Assíncronas no Modelo OLAM
Universidade Federal do Pampa 15º Escola Regional de Alto Desempenho/RS Avaliação do Tempo de Processamento e Comunicação via Rotinas MPI Assíncronas no Modelo OLAM Matheus Beniz Bieger - Claudio Schepke
Leia maisA NOVA EXPERIÊNCIA ANALÍTICA
A NOVA EXPERIÊNCIA ANALÍTICA USANDO MELHOR O HADOOP COMO PEÇA DO QUEBRA-CABEÇA DO BIG DATA Rafael Aielo Gerente de Soluções AGENDA Era Big Data Hadoop O que é e como funciona SAS e Hadoop ERA BIG DATA
Leia maisProcessamento da Junção Espacial Distribuída utilizando a técnica de Semi-Junção Espacial
Processamento da Junção Espacial Distribuída utilizando a técnica de Semi-Junção Espacial Sávio S. Teles de Oliveira 2, Anderson R. Cunha 2, Vagner J. do Sacramento Rodrigues 2, Wellington S. Martins 1
Leia maisCEFET/RJ Centro Federal de Educação Tecnológica Celso Suckow da Fonseca 2. LNCC Laboratório Nacional de Computação Científica 3
Rumo à Integração da Álgebra de Workflows com o Processamento de Consulta Relacional João Ferreira 1, Jorge Soares 1, Fabio Porto 2, Esther Pacitti 3, Rafaelli Coutinho 1, Eduardo Ogasawara 1 1 CEFET/RJ
Leia maisUNIVERSIDADE FEDERAL DA GRANDE DOURADOS PRÓ-REITORIA DE GRADUAÇÃO PROGRAD FACULDADE DE CIÊNCIAS EXATAS E TECNOLOGIA CURSO DE SISTEMAS DE INFORMAÇÃO
UNIVERSIDADE FEDERAL DA GRANDE DOURADOS PRÓ-REITORIA DE GRADUAÇÃO PROGRAD FACULDADE DE CIÊNCIAS EXATAS E TECNOLOGIA CURSO DE SISTEMAS DE INFORMAÇÃO Disciplina: Banco de Dados I Professor: Prof. Me. Everton
Leia maisSumário SELECT + FROM
Sumário 1 Introdução SQL - Perguntas André Restivo Faculdade de Engenharia da Universidade do Porto October 18, 2010 2 3 Operadores de Conjuntos 4 5 Agregações 6 Ordenações e Limites 7 Sub-perguntas 8
Leia maisINSTITUTO SUPERIOR TÉCNICO Administração e Optimização de Bases de Dados
Número: Nome: -------------------------------------------------------------------------------------------------------------- INSTITUTO SUPERIOR TÉCNICO Administração e Optimização de Bases de Dados Exame
Leia maisIntrodução ao Banco de Dados. Banco de Dados
Introdução ao Banco de Dados Prof. Tiago Garcia de Senna Carneiro UFOP Prof. Técnicas de Programação II 2006 PARTE 1: Conceitos Básicos Banco de Dados SGDB: Sistema Gerenciador de Banco de Dados Definição:
Leia maisSQL (Tópicos) Structured Query Language
SQL (Tópicos) Structured Query Language ISI Introdução aos Sistemas de Informação SQL (Tópicos) 1 SQL: componentes SQL / DDL (Data Definition Language) Permite definir os Esquemas de Relação Permite definir
Leia maisModelagem Multidimensional - Nível Físico -
Modelagem Multidimensional - Nível Físico - Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri Arquitetura de 3 Camadas esquema operações
Leia maisInformática Parte 11 Prof. Márcio Hunecke
Escriturário Informática Parte 11 Prof. Márcio Hunecke Informática FERRAMENTAS DE INGESTÃO DE DADOS (SQOOP 1.4.6, FLUME 1.7.0, NIFI 1.3.0 E KAFKA 0.11.0) Visão geral sobre os quatro componentes Fazem
Leia maisBANCO DE DADOS II SQL Básico. COTEMIG Gerson Borges
BANCO DE DADOS II SQL Básico COTEMIG Gerson Borges gerson@cotemig.com.br Definição de Banco de Dados [Elmasri & Navathe, 2000] Um banco de dados é uma coleção de dados relacionados Representando algum
Leia maisSumarizando Dados. Fabrício Olivetti de França. Universidade Federal do ABC
Sumarizando Dados Fabrício Olivetti de França Universidade Federal do ABC Sumarizando os dados Sumarização Antes de extrair informações da base de dados, é importante entender seu conteúdo. Sumarização:
Leia maisSeminário apresentado em 29/06/2017 Disciplina: Sistemas Distribuídos Professora: Noemi Rodriguez Aluno: Ricardo Dias
Seminário apresentado em 29/06/2017 Disciplina: Sistemas Distribuídos Professora: Noemi Rodriguez Aluno: Ricardo Dias Visão Geral Alta disponibilidade & tolerante a falhas Banco de dados distribuído de
Leia maisSQL - Perguntas. André Restivo. Faculdade de Engenharia da Universidade do Porto. February 24, 2012
SQL - Perguntas André Restivo Faculdade de Engenharia da Universidade do Porto February 24, 2012 André Restivo (FEUP) SQL - Perguntas February 24, 2012 1 / 46 Sumário 1 Introdução 2 Seleccionar e Filtrar
Leia maisPós-Graduação em Computação Distribuída e Ubíqua
Pós-Graduação em Computação Distribuída e Ubíqua INF628 - Engenharia de Software para Sistemas Distribuídos Sandro S. Andrade sandroandrade@ifba.edu.br Objetivos Apresentar os principais desafios de engenharia
Leia maisProcessamento de dados em "tempo real"
Processamento de dados em "tempo real" com Apache Spark Structured Stream Eiti Kimura QConSP19 Eiti Kimura IT Coordinator and Software Architect at Movile Msc. in Electrical Engineering Apache Cassandra
Leia maisBases de Dados Distribuídas
Bases de Dados Distribuídas Pablo Vieira Florentino 27/10/2006 Agenda Contexto Arquitetura de SGBDs Distribuído Projeto de Bases de dados Distribuídas Processamento Distribuído de consultas Questões atuais
Leia maisAmbiente de Data Warehouse Para Imagens Médicas Baseado Em Similaridade
Universidade de São Paulo - USP Instituto de Ciências Matemáticas e de Computação - ICMC Programa de Pós-Graduação em Ciências da Computação e Matemática Computacional Ambiente de Data Warehouse Para Imagens
Leia maisProcessamento de Consultas. Simone Dominico Orientador: Dr. Eduardo Cunha de Almeida PPGINF - UFPR
Processamento de Consultas Simone Dominico Orientador: Dr. Eduardo Cunha de Almeida PPGINF - UFPR Sumário Plano de Consulta; Modelos de processamento de Consultas; Metódos de Acesso; Algoritmos de seleção;
Leia maisMODELO DE BANCO DE DADOS RELACIONAL
UNINGÁ UNIDADE DE ENSINO SUPERIOR INGÁ FACULDADE INGÁ CIÊNCIA DA COMPUTAÇÃO BANCO DE DADOS I MODELO DE BANCO DE DADOS RELACIONAL Profº Erinaldo Sanches Nascimento Objetivos Descrever os princípios básicos
Leia maisUso de Índices na Otimização e Processamento de Consultas. Otimização e Processamento de Consultas. Otimização e Processamento de Consultas
usuário processador de E/S gerador de respostas Uso de Índices na Otimização e Processamento de Consultas Profa. Dra. Cristina Dutra de Aguiar Ciferri analisador controle de autorização verificador de
Leia mais