Análise e desenho de algoritmos Paralelos Implementação em Java

Transcrição

1 ISUTIC 207 Análise e desenho de algoritmos Paralelos Implementação em Java Docente: MSc. Angel Alberto Vazquez Sánchez

2 Sumario Desenho metodológico Particionamento Comunicação Aglomeração Mapeamento

3 Bibliografía I. Foster, Designing and Building Parallel Programs: Concepts and Tools for Parallel Software Engineering, st ed. Addison Wesley, 995.

4 Desenho metodológico A maioria dos problemas de programação tem várias soluções paralelas. A melhor solução pode ser diferente da sugerida pelos algoritmos seqüenciais existentes. A metodologia de projeto destina-se a promover uma abordagem exploratória do design em que problemas independentes da máquina, como a concorrência, são considerados antecipadamente e os aspectos específicos da máquina do projeto são atrasados até o final do processo de design.

5 Desenho metodológico Particionamento. A computação que deve ser realizada e os dados operados por este cálculo são decompostos em pequenas tarefas. Problemas práticos como o número de processadores no computador alvo são ignorados e a atenção é focada no reconhecimento de oportunidades de execução paralela. Comunicação. A comunicação necessária para coordenar a execução da tarefa é determinada e as estruturas e algoritmos de comunicação apropriados são definidos.

6 Desenho metodológico Aglomeração. A tarefa e as estruturas de comunicação definidas nas duas primeiras etapas de um projeto são avaliadas em relação aos requisitos de desempenho e custos de implementação. Se necessário, as tarefas são combinadas em tarefas maiores para melhorar o desempenho ou para reduzir os custos de desenvolvimento. Mapeamento. Cada tarefa é atribuída a um processador de forma a tentar satisfazer os objetivos concorrentes de maximizar a utilização do processador e minimizar os custos de comunicação. O mapeamento pode ser especificado de forma estática ou determinado em tempo de execução por algoritmos de balanceamento de carga.

7 Desenho metodológico

8 Desenho metodológico Particionamento Decomposição de tarefa / dados Comunicação Coordenação da execução da tarefa Aglomeração Avaliação da estrutura Mapeamento Atribuição de recursos

9 Particionamento O estágio de particionamento destina-se a expor oportunidades para a execução paralela Concentre-se na definição de um grande número de pequenas tarefas para produzir uma decomposição fina do problema Uma boa partição divide em pequenas peças as tarefas computacionais associadas a um problema e os dados nos quais as tarefas funcionam.

10 Particionamento A decomposição de domínio se concentra em dados de computação A decomposição funcional concentra-se em tarefas de computação A mistura de domínio / decomposição funcional é possível

11 Domínio e Descomposição Funcional Decomposição de domínio da rede 2D / 3D Descomposição funcional de um modelo climático

12 Lista de verificação de particionamento A sua partição definir pelo menos uma ordem de magnitude mais tarefas do que há processadores no computador de destino? Caso contrário, pode perder flexibilidade de design Sua partição evita a computação redundante e os requisitos de armazenamento? Caso contrário, pode não ser escalável. São tarefas de tamanho comparável? Caso contrário, pode ser difícil alocar cada processador quantidades iguais de trabalho.

13 Lista de verificação de particionamento O número de tarefas escala com o tamanho do problema? Caso contrário, talvez não consiga resolver problemas maiores com mais processadores Você identificou várias partições alternativas?

14 Comunicação (Interação) As tarefas geradas por uma partição devem interagir para permitir que a computação prossiga Fluxo de informações: dados e controle Tipos de comunicação Local vs. Global: localidade de comunicação Estruturado vs. Não estruturado: padrões de comunicação Estático vs. Dinâmico: determinado por condições de tempo de execução Síncrono versus assíncrono: grau de coordenação

15 Comunicação (Interação) Granularidade e frequência de comunicação Tamanho da troca de dados Pense na comunicação como interação e controle Aplicável ao paralelismo de memória compartilhado e distribuído

16 Tipos de Comunicação Ponto a ponto Baseado em grupo Hierárquico Coletivo

17 Lista de verificação de desenho de comunicação A distribuição das comunicações é igual? Comunicação não balanceada pode limitar a escalabilidade Qual é a localidade de comunicação? Os locais de comunicação mais amplos são mais caros Qual é o grau de concorrência de comunicação? As operações de comunicação podem ser paralelizadas

18 Lista de verificação de desenho de comunicação A computação está associada a diferentes tarefas capazes de prosseguir simultaneamente? A comunicação pode ser sobreposta com a computação? Tente reordenar computação e comunicação para expor oportunidades de paralelismo

19 Aglomeração Mude de abstrações paralelas para implementação real Revisar partição e comunicação Ver a execução eficiente do algoritmo É útil aglomerar? O que acontece quando as tarefas são combinadas? É útil replicar dados e / ou computação?

20 Aglomeração Muda o algoritmo e os índices de desempenho importantes Surface-to-volume: redução na comunicação à custa de paralelismo decrescente Comunicação / computação: qual custo domina A replicação pode permitir uma redução na comunicação Manter a flexibilidade para permitir a sobreposição

21 Tipos de aglomeração Elemento para coluna Elemento para bloco Melhor superfície ao volume Fusão de tarefas Redução de tarefas Reduz a comunicação

22 Lista de verificação de desenho de aglomeração O aumento da localidade reduziu os custos de comunicação? A computação replicada vale a pena? A replicação de dados compromete a escalabilidade? A computação ainda está equilibrada? A escalabilidade no tamanho do problema ainda é possível? Existe ainda uma concorrência suficiente? Existe espaço para mais aglomeração? Grão fino vs. grosseiro?

23 Mapeamento Especifique onde cada tarefa deve ser executada Menos preocupante em sistemas de memória compartilhada Tentativa de minimizar o tempo de execução Coloque tarefas simultâneas em diferentes processadores para aumentar a concorrência física Coloque as tarefas de comunicação no mesmo processador, ou em processadores próximos uns dos outros, para aumentar a localidade Estratégias podem entrar em conflito! O problema de mapeamento é NP-complete Usar classificações de problemas e heurísticas Balanceamento de carga estático e dinâmico

24 Algoritmos de mapeamento Algoritmos de balanceamento de carga (particionamento) Algoritmos baseados em dados Pense na carga computacional em relação à quantidade de dados em operação Atribuir dados (isto é, trabalhar) de alguma forma conhecida para equilibrar Tome em consideração as interações de dados Algoritmos baseados em tarefas (agendamento de tarefas) Usado quando a decomposição funcional produz muitas tarefas com requisitos de local fracos Usar a atribuição de tarefa para manter a computação ocupada dos processadores Considere esquemas centralizados e descentralizados

25 Lista de verificação do desenho do mapeamento O mapeamento estático é muito restritivo e não responsivo? O mapeamento dinâmico é muito caro em geral? O agendamento centralizado leva a engarrafamento? Os esquemas dinâmicos de balanceamento de carga exigem muita coordenação para reequilibrar a carga? Qual é a compensação da complexidade dinâmica de agendamento versus melhoria de desempenho? Existem tarefas suficientes para alcançar altos níveis de concorrência? Caso contrário, os processadores podem estar ociosos.

26 Tipos de Programas Paralelos Sabores de paralelismo Paralelismo de dados: todos os processadores fazem a mesma coisa em dados diferentes Task parallelism: Os processadores recebem tarefas que fazem coisas diferentes Modelos de execução paralela Dados paralelos Pipelining (Produtor-Consumidor) Gráfico da tarefa Pool de trabalho Mestre - Trabalhador

27 Paralelismo em nível de tarefa Qualquer algoritmo pode especificá-lo como uma seqüência de passos. Por exemplo: Suponhamos que temos uma serie de elementos e queremos computar a soma de seus elementos. sum = soma da primeira metade sum2 = soma da segunda metade sum = sum + sum2

28 Criação de Tarefas e Término (Async, Finish) finish async sum = soma da primeira metade sum2 = soma da segunda metade sum = sum + sum2

29 Tarefas no marco de trabalho ForkJoin de Java public class ASum { private double[] array; int lo; int hi; double sum; public ASum(double[] array, int lo, int hi) {...} public void compute() { if(lo == hi) { sum = array[lo]; }else if(lo > hi) { sum = 0; }else { int mid = (hi+lo)/2; ASum l = new ASum(array, lo, mid); ASum r = new ASum(array, mid+, hi); l.compute(); r.compute(); sum = l.sum + r.sum; } } }

30 Tarefas no marco de trabalho ForkJoin de Java public class ASum { private double[] array; int lo; int hi; double sum; public ASum(double[] array, int lo, int hi) {...} public void compute() { if(lo == hi) { sum = array[lo]; }else if(lo > hi) { sum = 0; }else { int mid = (hi+lo)/2; ASum l = new ASum(array, lo, mid); ASum r = new ASum(array, mid+, hi); async l.compute(); r.compute(); sum = l.sum + r.sum; } } }

31 Tarefas no marco de trabalho ForkJoin de Java public class Asum extends RecursiveAction { private double[] array; int lo; int hi; double sum; public ASum(double[] array, int lo, int hi) {...} public void compute() { if(lo == hi) { sum = array[lo]; }else if(lo > hi) { sum = 0; }else { int mid = (hi+lo)/2; ASum l = new ASum(array, lo, mid); ASum r = new ASum(array, mid+, hi); async l.compute(); l.fork() r.compute(); sum = l.sum + r.sum; } } }

32 Tarefas no marco de trabalho ForkJoin de Java public class Asum extends RecursiveAction{ private double[] array; int lo; int hi; double sum; public ASum(double[] array, int lo, int hi) {...} public void compute() { if(lo == hi) { sum = array[lo]; }else if(lo > hi) { sum = 0; }else { int mid = (hi+lo)/2; ASum l = new ASum(array, lo, mid); ASum r = new ASum(array, mid+, hi); l.fork(); finish r.compute(); sum = l.sum + r.sum; } } }

33 Tarefas no marco de trabalho ForkJoin de Java public class ASum extends RecursiveAction{ private double[] array; int lo; int hi; double sum; public ASum(double[] array, int lo, int hi) {...} public void compute() { if(lo == hi) { sum = array[lo]; }else if(lo > hi) { sum = 0; }else { int mid = (hi+lo)/2; ASum l = new ASum(array, lo, mid); ASum r = new ASum(array, mid+, hi); l.fork(); finish r.compute(); l.join(); sum = l.sum + r.sum; } }

34 Tarefas no marco de trabalho ForkJoin de Java public class ASum extends RecursiveAction{ private double[] array; int lo; int hi; double sum; public ASum(double[] array, int lo, int hi) {...} l.fork(); public void compute() { r.compute(); if(lo == hi) { invokeall(l,r); l.join(); sum = array[lo]; }else if(lo > hi) { sum = 0; }else { int mid = (hi+lo)/2; ASum l = new ASum(array, lo, mid); ASum r = new ASum(array, mid+, hi); l.fork(); r.compute(); l.join(); sum = l.sum + r.sum; } }

35 Tarefas no marco de trabalho ForkJoin de Java public class ASum extends RecursiveAction{ private double[] array; int lo; int hi; double sum; public ASum(double[] array, int lo, int hi) {...} public void compute() { if(lo == hi) { sum = array[lo]; }else if(lo > hi) { sum = 0; }else { int mid = (hi+lo)/2; ASum l = new ASum(array, lo, mid); ASum r = new ASum(array, mid+, hi); invokeall(l,r); sum = l.sum + r.sum; } } }

36 Gráficos de Computação Modelam a execução de um programa paralelo como um conjunto parcialmente ordenado Especificamente, um CG consiste em: Um conjunto de vértices ou nós, em que cada nó representa um passo consistente em uma computação seqüencial arbitrária. Um conjunto de bordas direcionadas que representam restrições de pedidos entre etapas.

37 Gráficos de Computação Para os programas fork-join, é útil dividir as arestas em três casos: Arestas "Continue" que capturam a seqüência de passos em uma tarefa Arestas "Fork" que conectam uma operação "fork" ao primeiro passo das tarefas filha Arestas "Join" que conectam o último passo de uma tarefa a todas as operações join nessa tarefa

38 Gráficos de computação Suponha que possamos as seguintes etapas de um algoritmo para executar S finish{ async S2 S3 } S4 S fork S2 S3 join S2 S4 S fork continue S2 S3 join continue S4

39 Gráficos de computação Os CGs também podem ser usados para argumentar sobre o paralelismo ideal de um programa paralelo da seguinte maneira: Define WORK(G) para ser a soma dos tempos de execução de todos os nós no CG G, Defina SPAN (G) para ser a longitude de um caminho mais longo em G, ao somar os tempos de execução de todos os nós no caminho. Os caminhos mais longos são conhecidos como caminhos críticos, então o SPAN também representa a longitude do caminho crítico (CPL) de G.

40 Gráficos de computação Dadas as definições de WORK e SPAN, definimos o paralelismo ideal do Gráfico de Computação G como a relação, WORK(G) / SPAN(G). O paralelismo ideal é um limite superior do fator de aceleração que pode ser obtido a partir da execução paralela de nós no gráfico de computação G.

41 Gráficos de computação 0 S2 fork join S continue S3 continue S4 0 Work = 22 SPAN = 2

42 Agendamento multiprocessador, aceleração paralela S Tp = tempo de execução em p processadores S2 S4 S6 0 P 0 P S Idle S 2 S 4 T 2 =4 S3 S5 S 3 S 5 S7 S 6 S 7 Idle Idle

43 Agendamento multiprocessador, aceleração paralela S Tp = tempo de execução em p processadores S2 S4 S6 0 P 0 P S Idle S 6 S T 2 =2 S3 S5 S 3 S7 S 4 S 5 S 7

44 Agendamento multiprocessador, aceleração paralela S Tp = tempo de execução em p processadores S2 S3 S4 S5 S6 0 T =Work T =SPAN T T p T S7

45 Agendamento multiprocessador, aceleração paralela S Tp = tempo de execução em p processadores T =Work S2 S3 S4 S5 S6 0 T =SPAN T T p T S7 Speedup= T T p

46 Agendamento multiprocessador, aceleração paralela S Tp = tempo de execução em p processadores T =Work S2 S3 S4 S5 S6 0 T =SPAN T T p T S7 Speedup= T T p Speedup p Speedup Work Span = paralelismo ideal

47 Lei de Amdahl Speedup Work Span Span q Work q = fração do código que é sequencial Speedup q Exemplo: q=0.5 Speedup 2