+ Problema Típico de Big Data

Transcrição

1 + + Problema Típico de Big Data niterar sobre um grande número de registros nextrair algo de interesse de cada registro (MAP) ndistribuir e ordenar resultados intermediários nagregar resultados intermediários (REDUCE) Tecnologia Web Edição /01 Edição Big Data Prof. Altigran Soares da Sila MapReduce e Hadoop Básico Baseado nos Slides do Professor Jimmy Lin 1 ngerar a saída final (Dean and Ghemawat, OSDI 2004) Ideia geral: proer um abstração funcional destas duas operações. + MapReduce nprogramador especifica duas funções: ( 1, 1 ) [< 2, 2 >] reduce ( 2, [ 2 ]) [< 3, 3 >] n Todos os alores com a mesta chae são eniados ao mesmo reducer no arcabouço de execução cuida de todo o resto Distribui e organiza alores agregados a 1 b 2 c 3 c 6 a 5 c 2 b 7 c 8 a 1 5 b 2 7 c reduce reduce reduce r 1 s 1 r 2 s 2 r 3 s 3

2 + MapReduce Runtime + MapReduce n Escalonador: Atribui tarefas e reduce aos nodos worers n Distribuição : Moe tarefas para os nodos onde estão os dados n Sincronização: Reúne, organiza e ordena dados intermediários n Erros e Falhas: Detecta falhas nos worers e os re-ininicia n Tudo ocorre em cima de um sistema de arquios distribuído n Eentualmente, pode-se especificar: partition (, no. de partições) partição para n Diide o espaço de chaes para operações reduce paralelas n Ex: hash( ) mod n combine (, ) <, >* n Mini-reducers que rodam em memória depois de uma fase de n Otimização para reduzir o tráfego na rede + MapReduce com Partition & Combine n Programadores deem specificar: n (, ) <, >* n reduce (, ) <, >* n Todos os alores com a mesma chae são reduzidos juntos n Opcionalmente, pode-se também especificar: n partition (, número de partições partição para n Geralmente é um simples hash sobre a chae: hash( ) mod n n Diide o espaço de chaes para reduces paralelos n combine (, ) <, >* n Mini-reducers que rodam em memória depois da fase n Usados como otimização para reduzir o trafégo na rede n O framewor de execução cuida do resto combine combine combine a 1 b 2 c 3 c 6 a 5 c 2 b 7 c 8 combine a 1 b 2 c 9 a 5 c 2 b 7 c 8 partition partition partition partition Shuffle and Sort: aggregate alues by eys a 1 5 b 2 7 c reduc e reduc e reduc e r 1 s 1 r 2 s 2 r 3 s 3

3 + O "Resto + Sincronização 10 n O framewor de execução cuida de todo o resto n Escalonamento: atribuir tarefas de e reduce aos worers n Distribuição de Dados : moer os processos para os dados n Sincronização: agrupa, ordena e distribui dados intermediários n Erros e falhas: Detecta falhas dos worers e reinicia n Controle limitado sobre o fluxo de dados e execução n Todo o algoritmo dee estar expresso em m,r,c,p n Não se sabe nem se controla: n Onde os pers e reducers rodam n Quando um per ou reducer inicia e termina n Que entrada um per em particular está processando n Que chae intermediária um reducer em particular está processando nem MR a sincronização é conseguida atraés de uma barreira ente as fases e reduce. npares intermediários de chae-alor deem ser agrupados pela chae nshuffle & Sort: n Grande processo distribuído de ordenação n Enole todos os nodos do cluster que executam tarefas e todos os que executam tarefas reduce. n Enole copia de dados intermediários pela rede + Sincronização npara garantir que todos os alores associados a uma chae serão reunidos, computação no reduce só pode iniciar depois que n (1) Todos os pers tenham emitido os pares desta chae n (2) Todos os pares tenham sido ordenados e distribuídos no reducer recebe todos os alores associados a uma mesma chae ao mesmo tempo. nno entanto, os pers podem copiar os pares intermediários assim que possíel. Barreira de Sincronização combine combine combine a 1 b 2 c 3 c 6 a 5 c 2 b 7 c 8 combine a 1 b 2 c 9 a 5 c 2 b 7 c 8 partition partition partition partition Shuffle and Sort: aggregate alues by eys a 1 5 b 2 7 c reduce reduce reduce r 1 s 1 r 2 s 2 r 3 s 3

4 + Contador de Palaras + Implementações MapReduce Map(String docid, String text): for each word w in text: Emit(w, 1); Reduce(String term, Iterator<Int> alues): int sum = 0; for each in alues: sum += ; Emit(term, sum); n Google: implementação proprietária em C++ n Bindings em Jaa, Python n Hadoop: implementação open-source em Jaa n Desenolida pela Yahoo, agora um projeto Apache n Usado em produção: Yahoo, FB, Twitter, LinedIn, Netflix, n Plataforma de facto para processamento de big data n Ecosystema de sofware amplo e em expansão + Sistema de Arquios Distribuído User Program Master (1) submit ngfs (Google File System): n Google MapReduce split 0 split 1 split 2 split 3 split 4 (3) read worer worer (2) schedule (2) schedule reduce (4) local write (5) remote read worer worer (6) write output file 0 output file 1 nhdfs (Hadoop Distributed File System) nhadoop worer Input files Map phase Intermediate files (on local dis) Reduce phase Output files Adapted from (Dean and Ghemawat, OSDI 2004)

5 + Sistema de Arquios Distribuído + GFS: Hipóteses nworers moidos para onde estão os dados n Dados são armazenados nos discos locais dos nodos do cluster n Inicia o worers no nó que contém o dado local nporque? n Dados possielmente não cabem RAM n Acesso ao disco é lento, mas o dis throughput é razoáel n Commodity hardware ao inés hardware caro: Scale out, not up n Altas taxas de falhas de componentes: Componentes baratos falham com frequência n Existe um número pequeno de grandes arquios a serem processados. n Arquios são para escrita, principalmente append n Dados são lidos de longas streams n Não há acessos aleatórios a disco GFS slides adapted from material by (Ghemawat et al., SOSP 2003) + GFS: Decisões de Projeto + GFS s. HDFS narquios armazenados em chuns n Tamanho fixo (64MB) nconfiabilidade por replicação n Cada chun replicado em 3+ chunserers nnó master único: coordena acesso e mantém meta-dados nmesmas características básicas ndiferenças na terminologia: n GFS master = Hadoop namenode n GFS chunserers = Hadoop datanodes nmodelo de consistência para appends em arquio n Implementação n Performance

6 + Arquitetura HDFS + Responsabilidades dos Namenodes n Gerenciamento do sistema de arquio Application HDFS Client (file name, bloc id) (bloc id, bloc location) HDFS namenode /foo/bar File namespace bloc 3df2 n Guarda a estutura de arquios/diretórios, metadados, eamento arquiobloco, permissão de acesso, etc. n Coordena as operações de arquio n Direciona clientes para os datanodes para leituras e escritas instructions to datanode n Não há moimento de dados atraés do namenode! (bloc id, byte range) bloc data datanode state HDFS datanode HDFS datanode Linux file system Linux file system n Manutenção geral: n Comunicação periódica com os datanodes n Replicação e rebalanceamento de blocos n Garbage collection Adapted from (Ghemawat et al., SOSP 2003) + Em resumo + RDBMS s. MapReduce 24 namenode job submission node RDBMS MapReduce namenode daemon jobtracer n Giga a Terabytes n Tera a Petabytes n Interatio e Batch n Batch tastracer tastracer tastracer n Muitos updates e reads n Poucos updates, muitos reads datanode daemon Linux file system datanode daemon Linux file system datanode daemon Linux file system n Esquema estático n Esquema irregular e dinâmico n Alto grau de integridade n Baixo grau de integridade slae node slae node slae node n ACID n Sem ACID Alternatia: YARN eremos depois

7 + Exemplo: Contador de Palaras + Contador de Palaras (2) n Considere um grande arquio de palaras, sendo que cada palara ocorre em um linha n Deseja-se contar o número de ezes em que cada palaa distinta ocorre no arquio n Exemplo de aplicação: analisar o log de um seridor Web para determinar URLs populares n Caso 1: O arquio inteiro cabe na memória n Caso 2: O arquio não cabe na memória, mas todos os pares <palara, contador> cabem n Case 3: O arquio está em disco, mas a memória não é suficiente para armazenar os pares nsort datafile uniq c + Contador de Palaras (3) + MapReduce: Passo Map n Para dificultar um pouco, suponha que temos uma grande coleção de documentos n Contar o número de ezes que cada palara distinta ocorre na coleção n words(docs/*) sort uniq c n words : dado um arquio, gera uma lista das palaras nele contidas, uma por linha Entrada Pares chae-alor Intermediário Pares chae-alor n Considerando a arquitetura de nodos, o problema pode ser resolido usando MapReduce n O problema e naturalmente paralelizáel Chaes não são chaes únicas

8 + MapReduce: Passo Reduce + MapReduce Intermediário Pares chae-alor group Grupos chae-alor Saída Pares chae-alor reduce reduce n Entrada: um conjunto de pares chae-alor n O programador fornece duas funções n (,) à list(1,1) n reduce(1, list(1)) à 2 n (1,1) para chae-alor intermediário n A saída é um conjunto de pares chae-alor (1,2) reduce + Contador de Palaras + Execução Distribuída User Program Map(String docid, String text): for each word w in text: Emit(w, 1); Reduce(String term, Iterator<Int> alues): int sum = 0; for each in alues: sum += ; Emit(term, sum); Input Data Split 0 Split 1 Split 2 read Worer Worer Worer for for for assign local write Master remote read, sort assign reduce Worer Worer write Output File 0 Output File 1

9 + Fluxo de Dados + Coordenação n A entrada e a saída final são armazenadas no sistema de arquios distribuído n O escalonador tende escalonar tarefas nodos próximos ao local de armazenamento físico dos dados de entrada. n Resultados intermediários são armazenados no sistema de arquios locais onde rodam os worers de e reduce. n Muitas ezes, a saída sere de entrada para outra tarefa MapReduce nestruturas de dados do Master n Estado da tarefa: (lire, em execução, completada) n Tarefas lires são escalonadas quando os Wores ficam disponíeis n Quando a tarefa termina, o Master recebe o tamanho e a localização de seus arquios intermediários. n Essa informação é eniada aos reducers no Master pinga os worers periodicamente para detectar falhas. + Falhas + Quantas tarefas Map e Reduce? n Falha em um Map worer n Tarefa Map completada ou em execução no worer é re-setada para lire n Worers Reduce são notificados quando a tarefa é re-escalonada para outro worer n Falha em um Reduce worer n Somente tarefas em execução são re-setadas para lire n Falha no Master n A tarefa MapReduce é abortada e o cliente notificado nm tarefas, R tarefas reduce nregra prática: n Usar M e R muito maior que o número de nós no cluster n Um chun de arquio por tarefa é comum n Melhor o balanceamento dinâmico da carga e acelera a recuperação em caso de falha ngeramente, R é menor que M, porque a saída é distribuída entre R arquios

10 + + Combinadores Função de Partição This is the final output: the maximum global temperature recorded in each year. n Em geral, uma tarefa produzirá muitos pares (,1), (,2), para a mesma chae n n As entradas para são criadas a At partir de ofdiisões no The whole datao flow is illustrated in Figure 2-1. the bottom the diagramcontíguas is a Unix which mimics the whole MapReduce flow and which we will see again later in arquio pipeline, de entrada Ex., palaras frequentes no contador de palaras n Para né possíel economizar tráfego na rede fazendo uma pré-agregação no per n n n this chapter when we loo at Hadoop Streaming. o reduce, é necessário garantir que os pares com a mesma chae intermediária serão processados pelo mesmo worer no sistema usa um função default de particionamento ex., hash(ey) mod R combine(1, list(1)) à 2 Em geral é a mesma combinação usada no reduce Funciona apelas se a função reduce é comutatia e associatia n Às n ezesfigure pode ser útil substituí-la por uma função específica 2-1. MapReduce logical data flow Ex. hash(hostname(url)) mod R garante que todas as URLs de um mesmo host estarãojaa na mesma saída MapReduce Haing run through how the MapReduce program wors, the next step is to express it in code. We need three things: a function, a reduce function, and some code to run the job. The function is represented by the class, which declares an abstract () method. Example 2-3 shows the implementation of our function. Example 2-3. for the maximum temperature example jaa.io.ioexception; org.apache.hadoop.io.intwritable; org.apache.hadoop.io.longwritable; org.apache.hadoop.io.text; org.apache.hadoop.reduce.; 40 Classe declara um método asbstrato public class MaxTemperature extends <LongWritable, Text, Text, IntWritable> { priate static final int MISSING = public oid (LongWritable ey, Text alue, Context context) throws IOException, InterruptedException { + String line = alue.tostring(); String year = line.substring(15, 19); int airtemperature; if (line.charat(87) == '+') { // parseint doesn't lie leading plus signs airtemperature = Integer.parseInt(line.substring(88, 92)); else { airtemperature = Integer.parseInt(line.substring(87, 92)); String quality = line.substring(92, 93); Hadoop Básico if (airtemperature!= MISSING && quality.matches("[01459]")) { context.write(new Text(year), new IntWritable(airTemperature)); Chapter 2: MapReduce The class is a generic type, with four formal type parameters that specify the input ey, input alue, output ey, and output alue types of the function. For the present example, the input ey is a long integer offset, the input alue is a line of text, the output ey is a year, and the output alue is an air temperature (an integer). Rather than using built-in Jaa types, Hadoop proides its own set of basic types that are op timized for networ serialization. These are found in the org.apache.hadoop.io pac

11 Jaa MapReduce Haing run through how the MapReduce program wors, the next step is to express it in code. We need three things: a function, a reduce function, and some code to run the job. The function is represented by the class, which declares an abstract () method. Example 2-3 shows the implementation of our function. Example 2-3. for the maximum temperature example jaa.io.ioexception; 41 org.apache.hadoop.io.intwritable; org.apache.hadoop.io.longwritable; org.apache.hadoop.io.text; This is org.apache.hadoop.reduce.; the final output: the maximum global temperature recorded in each year. alue input ey output alue public oid (LongWritable ey, Text alue, Context context) throws IOException, InterruptedException { String line = alue.tostring(); String year = line.substring(15, 19); int airtemperature; if (line.charat(87) == '+') { // parseint doesn't lie leading plus signs = Integer.parseInt(line.substring(88, 92)); FigureairTemperature 2-1. MapReduce logical data flow else { airtemperature = Integer.parseInt(line.substring(87, 92)); String quality = line.substring(92, 93); Classes concretas para diferentes tipos IntWritable The () method is passed a eydeand a alue. We conert the Text alue containing dados. LongWritable the line of input into a Jaa String, then use its substring() method to extract the Text columns we are interested in. Jaa MapReduce The () method also proides an instance of Context to write the output to. In this case, we writesequencefiles the year as a Text object (since we para are just using it as a ey), and the Codificação binária uma sequência temperature is wrapped in an IntWritable. We write an output record only if the tem de pares chaes/alor perature is present and the quality code indicates the temperature reading is OK. Haing run through how MapReduce program wors, the next{ step is to express it if (airtemperature!= the MISSING && quality.matches("[01459]")) in code. We need three things: a new function, a reduce function, and some code to run context.write(new Text(year), IntWritable(airTemperature)); the The function is represented by the class, which declares an abstract 24 job. Chapter 2: MapReduce () method. Example 2-3 shows the implementation of our function. Example 2-3. for the maximum temperature example The class is a generic type, with four formal type parameters that specify the jaa.io.ioexception; input ey, input alue, output ey, and output alue types of the function. For the present example, the input ey is a long integer offset, the input alue is a line of text, org.apache.hadoop.io.intwritable; the output ey is a year, and the output alue is an air temperature (an integer). Rather org.apache.hadoop.io.longwritable; using org.apache.hadoop.io.text; than built-in Jaa types, Hadoop proides its own set of basic types that are op org.apache.hadoop.reduce.; timized for networ serialization. These are found in the org.apache.hadoop.io pac age. Here wemaxtemperature use LongWritable, which corresponds to a Jaa Long, Text (lie Jaa public class String ), and<longwritable, IntWritable (lie Jaa Integer extends Text, Text, ).IntWritable> { The ()static method is passed a ey and a alue. We conert the Text alue containing priate final int MISSING = 9999; output ey input alue the line of input into a Jaa String, then useinput its substring() method to extract columns we are interested in. public oid (LongWritable ey, Text alue, Context context) throws IOException, InterruptedException The () method also proides an instance of {Context to write the output to. In this Tipos de Dados Hadoop The class is a generic type,define with um four formal de type parameters that specify the Writable protocolo (de)serialização. tipo dados Hadoop umthe Writable. input ey, input alue, output ey, Todo and output alue typesé of function. For the present example, the input ey is a long integer offset, the input alue is a line of text, the outputwritablecomprable ey is a year, and the output is an air temperature (an integer). Rather Definealue uma ordem. Todas as chaes tem than using built-in Jaa types, Hadoop proides ownnão setosofalores) basic types that are op que ser deste tipoits(mas timized for networ serialization. These are found in the org.apache.hadoop.io pac age. Here we use LongWritable, which corresponds to a Jaa Long, Text (lie Jaa String), and IntWritable (lie Jaa Integer). public class MaxTemperature The whole data flow is illustrated in Figure 2-1. At the bottom of the diagram is a Unix extends <LongWritable, Text, IntWritable> { we will see again later in pipeline, which mimics the whole Text, MapReduce flow and which this chapter when we loo at Hadoop Streaming. priate static final int MISSING = 9999; ey input + if (airtemperature!= MISSING && quality.matches("[01459]")) { context.write(new Text(year), new IntWritable(airTemperature)); 43 The reduce function is similarly defined using a Reducer, as illustrated in Example 2-4. Example 2-4. Reducer for the maximum temperature example jaa.io.ioexception; org.apache.hadoop.io.intwritable; org.apache.hadoop.io.text; org.apache.hadoop.reduce.reducer; ey input alue public oid reduce(text ey, Iterable<IntWritable> alues, Context context) throws IOException, InterruptedException { if (line.charat(87) == '+') { // parseint doesn't lie leading plus signs The reduce function is= similarly defined using a Reducer, as illustrated in Example 2-4. airtemperature Integer.parseInt(line.substring(88, 92)); int maxvalue = Integer.MIN_VALUE; for (IntWritable alue : alues) { maxvalue = Math.max(maxValue, alue.get()); context.write(ey, new IntWritable(maxValue)); else { Example 2-4. Reducer=for the maximum temperature example92)); airtemperature Integer.parseInt(line.substring(87, jaa.io.ioexception; String quality output = line.substring(92, 93); The class is a generic type, with four formal type parameters that specify input ey, input alue, output ey, and output alue types of the function. For the public oid reduce(text ey, Iterable<IntWritable> alues, Context context) present example, the input ey is a long integer offset, the input alue is a line of text, throws IOException, InterruptedException { the output ey is a year, and the output alue is an air temperature (an integer). Rather maxvalue = Integer.MIN_VALUE; thanint using built-in Jaa types, Hadoop proides its own set of basic types that are op for for (IntWritable alue : alues) { are found in the org.apache.hadoop.io pac timized networ serialization. These maxvalue = Math.max(maxValue, alue.get()); alue output public class MaxTemperatureReducer extends Reducer<Text, IntWritable, Text, IntWritable> { case, we write the year as a Text object (since we are just using it as a ey), and the String line = alue.tostring(); temperature is wrapped in an IntWritable String year = line.substring(15, 19);. We write an output record only if the tem perature is present and the quality code indicates the temperature reading is OK. int airtemperature; if (airtemperature!= MISSING && quality.matches("[01459]")) { org.apache.hadoop.io.intwritable; Text(year), new IntWritable(airTemperature)); context.write(new org.apache.hadoop.io.text; org.apache.hadoop.reduce.reducer; 24 Chapter 2: MapReduce public class MaxTemperatureReducer extends Reducer<Text, IntWritable, Text, IntWritable> { ey output Analyzing the Data with Hadoop 25 44

12 + Job n Um objeto Job contém a especificação de uma tarefa e nos permite controlar sua execução n Para rodar o job em um cluster Hadoop, amos empacotar o código em um arquio JAR, que será distribuído pelo Hadoop entre os nodos do cluster. n Ao inés de explicitamente especificar o nome do JAR, podemos uma classe no método setjarbyclass(). O Hadoop usa essa informação para localizar o JAR. 45 org.apache.hadoop.fs.path; org.apache.hadoop.io.intwritable; org.apache.hadoop.io.text; org.apache.hadoop.reduce.job; org.apache.hadoop.reduce.lib.input.fileinputformat; org.apache.hadoop.reduce.lib.output.fileoutputformat; 46 public class MaxTemperature { public static oid main(string[] args) throws Exception { if (args.length!= 2) { System.err.println("Usage: MaxTemperature <input path> <output path>"); System.exit(-1); Criação/Definição do Job Job job = new Job(); job.setjarbyclass(maxtemperature.class); job.setjobname("max temperature"); FileInputFormat.addInputPath(job, new Path(args[0])); FileOutputFormat.setOutputPath(job, new Path(args[1])); job.setclass(maxtemperature.class); job.setreducerclass(maxtemperaturereducer.class); Entrada:Arquio, Diretório ou Pattern Saída: Arquio único Classes Map e Reduce job.setoutputkeyclass(text.class); job.setoutputvalueclass(intwritable.class); System.exit(job.waitForCompletion(true)? 0 : 1); Submete o Job e espera pelo término true: mensagens de progresso eniadas pro console 47 + public class DemoWordCount extends Configured implements Tool { priate static final Logger LOG = Logger.getLogger(DemoWordCount.class); hadoop MaxTemperature input/ncdc/sample.txt output // : emits (toen, 1) for eery word occurrence. priate static class My extends <LongWritable,Text,Text,IntWritable> { // Reuse objects to sae oerhead of object creation. priate final static IntWritable ONE = new IntWritable(1); priate final static Text WORD = new public oid (LongWritable ey, Text alue, Context context) throws IOException, InterruptedException { String line = ((Text) alue).tostring(); StringToenizer itr = new StringToenizer(line); while (itr.hasmoretoens()) { WORD.set(itr.nextToen()); context.write(word, ONE);

13 + Reducer + JOB public DemoWordCount() { // Reducer: sums up all the counts. priate static class MyReducer extends Reducer<Text,IntWritable,Text,IntWritable> { // Reuse objects. priate final static IntWritable SUM = new public oid reduce(text ey, Iterable<IntWritable> alues, Context context) throws IOException, InterruptedException { // Sum up alues. Iterator<IntWritable> iter = alues.iterator(); int sum = 0; while (iter.hasnext()) { sum += iter.next().get(); SUM.set(sum); context.write(ey, SUM);... Configuration conf = getconf(); Job job = Job.getInstance(conf); job.setjobname( Word Count"); job.setjarbyclass(demowordcount.class); FileInputFormat.setInputPaths(job, new Path(inputPath)); FileOutputFormat.setOutputPath(job, new Path(outputPath)); job.setoutputkeyclass(text.class); job.setoutputvalueclass(intwritable.class); job.setclass(my.class); job.setcombinerclass(myreducer.class); job.setreducerclass(myreducer.class); job.waitforcompletion(true); + Dados Complexos in Hadoop + Componentes Básicos do Cluster n Jeito Fácil: n Codificar como texto, e.x., (a, b) = a:b n Usar expressões regulares para ler e extrair os dados n Funciona, mas é meio gambiarra n Jeito Difícil: n Definir formalmente uma implementação de Writable(Comprable) n Dee implmentar: readfields, write, (compareto) n Computacionalmente eficiente, mas complicado n Implementação de WritableComparator dee ser eficiente n Um de cada: n Namenode (NN): Nó principal (master) do HDFS n Jobtracer (JT): Nó principal para submissão de tarefas n Conjunto de máquinas escraas: n Tastracer (TT): contêm múltiplos slots de tarefas n Datanode (DN): sere blocos de dados HDFS n No meio do do caminho: n Bibliotecas como Cloud9 e Bespin tem suporte para JSON e ários tipos úteis para usar com Hadoop * Not quite leaing aside YARN for now

14 + Componentes Básicos - Cluster namenode namenode daemon job submission node jobtracer tastracer datanode daemon Linux file system slae node tastracer datanode daemon Linux file system slae node tastracer datanode daemon Linux file system slae node + Anatomia de um Job + Anatomia de um Job n Programa MapReduce em Hadoop = Job Hadoop n Jobs são diidos em tarefas Map e tarefas reduce n Uma instância de uma tarefa em execução ocupa um slot n Chamade de "tas attempt n Múltiplos Jobs podem ser executados em um worflow n Submissão de Jobs: n Um cliente cria um Job, configura, e submete para o jobtracer n Pronto! O cluster Hadoop toma conta n Nos bastidores: n As diisões da entrada são computadas, no lado do cliente n Informações do job (jar, conf. XML) são eniadas ao JobTracer n JobTracer coloca essa informação em um local compartilhado em enfileira as tarefas n Os TasTracers retiram as tarefas das suas filas n O job entra em execução

15 Input File Input File Client InputFormat InputSplit InputSplit InputSplit InputSplit InputSplit RecordReader RecordReader RecordReader RecordReader RecordReader Records InputSplit InputSplit InputSplit RecordReader RecordReader RecordReader Intermediates Intermediates Intermediates Intermediates Intermediates Source: redrawn from a slide by Cloduera by Jimmy lin, cc-licensed Source: redrawn from a slide by Cloduera by Jimmy lin, cc-licensed Intermediates Intermediates Intermediates Intermediates Intermediates Reducer Reducer Reduce Partitioner Partitioner Partitioner Partitioner Partitioner OutputFormat RecordWriter RecordWriter RecordWriter (combiners omitted here) Output File Output File Output File Intermediates Intermediates Intermediates Reducer Reducer Reduce Source: redrawn from a slide by Cloduera by Jimmy lin, cc-licensed Source: redrawn from a slide by Cloduera by Jimmy lin, cc-licensed

16 + Input e Output + Distribuição e Ordenação n InputFormat: n TextInputFormat n KeyValueTextInputFormat n SequenceFileInputFormat n n OutputFormat: n TextOutputFormat n SequenceFileOutputFormat n n Proaelmente o aspecto mais complexo do MapReduce n No Map n Saídas do Map são colocadas na memória em um buffer circular n Quando o buffer enche, o conteúdo é ejetado para o disco n O "jatos" sofrem merge em um único arquio particionado, que é ordenado dentro de cada partição. O combiner roda durante os merges n No Reduce n Primeiro, as saídas dos s são copiadas nas máquinas dos reduces. n A ordenação é um merge de ários passos destas saídas. Pode ser executada na memória e no disco. n O combiner roda durantes os merges n O passo final do merge ai diretamente para o reducer + Distribuição e Ordenação merged spills (on dis) intermediate files (on dis) Combiner Reducer circular buffer (in memory) Combiner spills (on dis) other reducers other pers