Agendamento para Sistemas Paralelos

Transcrição

1 Advanced Computer Architectures: Agendamento para Sistemas Paralelos Oliver Sinnen INESC-ID Instituto Superior Técnico

2 Conteúdo I: Introdução II: Agendamento dinâmico III: Agendamento estático 2

3 I: Introdução O que é agendamento? decomposição em sub-tarefas análise de dependências mapeamento agendamento 3

4 I: Introdução Tipos de agendamento Dois tipos: Agendamento dinâmico Efectuado durante a execução do programa (runtime) Agendamento estático Efectuado antes da execução do programa (ao tempo de compilação) Conhecimento necessário: Dependências Tempos de computação/comunicação Sistema determinístico 4

5 I: Introdução Desafios do agendamento 1. Overhead Custos para agendar e sincronizar as tarefas 2. Balançar a carga Utilização eficiente dos processadores 3. Comunicação Evitar comunicação entre processadores (cara) 5

6 I: Introdução Objectivo do agendamento Objectivo: tempo de execução mais curto possível compromisso entre os 3 desafios Não é fácil: Só balançar a carga já é um problema NP-difícil não é possível encontrar solução óptima em tempo útil Problema binpacking / knapsack 6

7 I: Introdução Exemplo: balançar a carga 4 processadores Conjunto de tarefas independentes 7

8 II: Agendamento dinâmico Sem dependências Mestre/escravo Agendamento de ciclos Com dependências Agendamento do sistema operativo 8

9 II: Agendamento dinâmico Características Efectuado durante a execução do programa (runtime) Agendamento mais usado Indicado quando: Sistemas não são determinísticos Sistemas heterogéneos (difícil de modelizar) Não se conhece o tempo de computação/comunicação das tarefas Por ex.: tempo depende dos dados 9

10 II: Agendamento dinâmico Com/sem dependências Agendamento dinâmico sem dependências Não há dependências entre as tarefas Princípio mestre/escravo Agendamento de ciclos Agendamento dinâmico com dependências Há dependências entre as tarefas Agendamento do sistema operativo (num sistema paralelo) 10

11 II: Agendamento dinâmico Sem dependências Não há dependências entre as sub-tarefas Não há comunicação entre as sub-tarefas Ordem da execução das tarefas é irrelevante Só compromisso entre overhead e balançar a carga Exemplos: Ray tracing Multimedia Desencriptação 11

12 II: Agendamento dinâmico Princípio mestre/escravo Mestre Controla execução da tarefa Divide a tarefa em sub-tarefas e distribui-as entre os escravos Escravo Recebe sub-tarefa Executa-a Recebe nova sub-tarefa... 12

13 II: Agendamento dinâmico Princípio mestre/escravo (cont.) Indicado quando Tempo de execução das tarefas varia Sistema paralelo não é determinístico Por ex. computadores na rede (NOW, cluster) Agendamento das tarefas usa mesmos princípios como o agendamento de ciclos Exemplos: SETI@home TFC no INESC-ID: encoder de MPEG4 num cluster Ray tracing (render farms) 13

14 II: Agendamento dinâmico Agendamento de ciclos Agendamento de ciclos: agendamento das iterações nos processadores Exemplo: for i = 1 to N A[i] = f(b[i], C[i]) endfor Aqui: iterações independentes 14

15 II: Agendamento dinâmico Agendamento de ciclos: estático/dinâmico Se carga é conhecida é regular Agendamento estático carga balançada Senão Agendamento dinâmico carga não balançada 15

16 II: Agendamento dinâmico Agendamento de ciclos: princípio Agendamento dinâmico de ciclos Princípio (como mestre/escravo): Until no iterations left: Get chunk of iterations Execute these iterations Diferença: não há mestre (estrutura de dados na memória partilhada) Código do ciclo é adaptado 16

17 II: Agendamento dinâmico Agendamento de ciclos: chunksize Compromisso entre overhead e balançar a carga Cunksize Problema: Chunksize grande: possível desigualdade da carga entre os processadores Chunksize pequeno: muito overhead 17

18 II: Agendamento dinâmico Agendamento de ciclos: dynamic e guided Soluções: Agendamento dynamic Cunksize não muda durante o agendamento Agendamento guided Cunksize muda: Por ex.: o próximo chunksize é o numero das restantes iterações dividido pelo número de processadores Cunksize é reduzido exponencialmente 18

19 II: Agendamento dinâmico Agendamento de ciclos: dynamic e guided dynamic: guided: 19

20 II: Agendamento dinâmico Agendamento de ciclos: OpenMP Exemplo: agendamento de ciclos em OpenMP Sintaxe: schedule(kind, chunksize) kind: STATIC, DYNAMIC, GUIDED ou Runtime 20

21 II: Agendamento dinâmico Agendamento de ciclos: efeitos de cache Exemplo: for i = 1 to N A[i] = B[i] * C[i] endfor Linha de cache: mais do que um elemento dos arrays Iterações vizinhas em processadores diferentes Conflito de cache!! 21

22 II: Agendamento dinâmico Com dependências Há dependências entre as sub-tarefas Comunicação e sincronização entre as sub-tarefas Agendamento não conhece as dependências Tratadas pelas tarefas Agendamento do sistema operativo: Multithreading (no multiprogramming não há dependências) 22

23 II: Agendamento dinâmico Agendamento do SO Agendamento do sistema operativo Threads em vez de tarefas SO distribui os threads disponíveis entre os processadores Quando há mais threads do que processadores: Princípio de time-slice Objectivos Overhead pequeno Ser justo (evitar morte de fome ) Prioridades/interactividade 23

24 II: Agendamento dinâmico Agendamento do SO: comunicação Programador não tem influência ao agendamento do SO Comunicação e sincronização são feitas nos threads Agendamento é feito pelo programador Comunicação e sincronização entre os threads Pela memória partilhada Precisa de sincronização entre os threads Mecanismos de sincronização Semáforos Barreiras Exemplos: Java: synchronized OpenMP: barrier, critical 24 section (atomic, lock)

25 II: Agendamento dinâmico Agendamento do SO: evitar comunicação Objectivo adicional: evitar comunicação desnecessária Muito importante para o desempenho Cache Mesmo thread sempre para o mesmo processador Sistemas NUMA (Non Uniform Memory Access) Migração de thread para processadores vizinhos Memória fica perto Hyperthreading (POWER, P4) Agendamento deve saber diferença entre processador real e virtual 25

26 Agendamento de tarefas DAG Agendamento de ciclos Sem dependências Com dependências Grafo de fluxo 26

27 Características Efectuado antes da execução do programa (ao tempo de compilação) Conhecimento necessário: Dependências Tempos de computação/comunicação Não pode depender (muito) dos dados Requerimento Sistema determinístico Eliminação do overhead Agendamento feito durante a compilação 27

28 Agendamento de tarefas Programas com estrutura arbitrária Programa representado por um grafo Modelo simples do sistema paralelo alvo Este agendamento é implícito, por ex., em programas utilizando MPI 28

29 Exemplo paralelização programa/tarefa d = a 2 +a+1 decomposição sub-tarefas A: a = 1 B: b = a+1 C: c = a*a D: d = b+c análise de dependências 29

30 Grafo de tarefas (DAG) A: a = 1 B: b = a+1 C: c = a*a D: d = b+c grafo de tarefas (DAG) Grafo representa programa Entrada de agendamento de tarefas directed acyclic graph (DAG) nó (n): sub-tarefa arco (e): dependência (comunicação) peso: tempo de computação w(n) ou comunicação c(e) 30

31 Agendamento de tarefas Exemplo: 2 processadores + ex. ex. 31

32 Definições e constrangimentos Definições: DAG: G(V,E), nó n, arco e Tempo inicial: t s (n) ; tempo final: t f (n) Colocação no processador: proc(n) Constrangimentos: Constrangimento de Processador: proc(n i )=proc(n j ) => t s (n i ) t f (n j ) ou t s (n j ) t f (n i ) Constrangimento de precedência: para todos arcos e ji de E (de n j para n i ) t s (n i ) t f (n j ) + c(e ji ) 32

33 Agendamento de tarefas: objectivo Colocação temporal e espacial das sub-tarefas nos processadores ao tempo de compilação Objectivo: encontrar agendamento com extensão mais curta possível => também é NP-difícil Heurísticas de agendamento Agendamento em lista Agendamento com duplicação de nós Clustering Algoritmos genéticos 33

34 Agendamento em lista 1. Ordena os nós do DAG segundo uma prioridade, respeitando as dependências 2. Itera sobre a lista de 1.) e agenda cada nó no processador que permite a execução mais cedo Exemplo: Ordem dos nós: A,C,D,F,B,E,G 34

35 Técnica de inserção Agendar um nó entre dois nós já agendados 35

36 Modelo clássico do agendamento de tarefas modelo de sistema por ex. 8 processadores Propriedades: Sistema dedicado Processadores dedicados Custo zero de comunicação local Sub-sistema de comunicação Comunicação concordante Rede completamente ligada 36

37 Contenção de comunicação exemplo modelo clássico Contenção nos postos de acesso Na interface Maioria das redes não é completamente ligada Contenção na rede Nas ligações da rede 37

38 Modelo da rede Novo modelo da rede: Vértices: processadores (P) e switches (S) Redes estáticas e dinâmicas Contenção nos postos de acesso e na rede completamente ligada switched LAN Arcos: ligações de comunicação (L) Arcos não-dirigidos Half duplex Arcos dirigidos Full duplex Hiperarcos Barramento exemplo: 8 dual-processor cluster 38

39 Agendamento dos arcos Agendamento dos arcos nas ligações (L) Como nós nos processadores Encaminhamento: Depende do sistema alvo Algoritmo devolve lista de ligações, por ex. <L 1, L 2, L 3 > 39

40 Agendamento considerando contenção Sistema alvo representado pelo modela da rede Integração do agendamento dos arcos no agendamento de tarefas Só tem impacto ao tempo inicial do nó: t s (n i ) t f (e ji ) (constrangimento de precedência) sem contenção 40 com contenção

41 Envolvimento do processador Experiências propõe: modelo de contenção ainda não é suficientemente bom Propriedades do modelo de sistema:... Sub-sistemas de comunicação Comunicação concordante Rede completamente ligada Discrepância sistema real modelo Envolvimento do processador na comunicação 41 envolvimento

42 Envolvimento do processador: tipos Dois lados Um lado 3 ª entidade 42

43 Agendamento de arco no processador Como se considera o envolvimento no agendamento de tarefas Agendamento de arco no processador Tamanho do arco determinado por Tipo de envolvimento Parâmetros de envolvimento o r,s, i r,s 43

44 Agendamento considerando envolvimento Integra bem com agendamento considerando contenção Mas é muito mais difícil Problema: Arco só é agendado se comunicação é remota Soluções: 1. Agendamento provisório 2. Usar mapeamento pronto 44

45 1. Agendamento provisório Agenda provisoriamente os arcos que saem Corresponde ao pior caso que todas comunicações são remotas Quando o nó de destino é agendado: Agenda arco no caminho e no processador de destino Ou: remove arco se comunicação é local Desvantagens: Resulta em espaços no agendamento Solução parcial: inserir nós 45

46 2. Usar mapeamento pronto Agendamento de 2 passos: 1. Determina mapeamento com uma heurística Comunicações remotas são conhecidas 2. Agenda nós nos processadores determinados Pode ser feito por um algoritmo tipo agendamento em lista Agendamento provisório não é necessário 46

47 Agendamento considerando envolvimento Agendamento provisório Agendamento em lista Mesmo algoritmo como sob modelo de contenção Novo: agendamento provisório dos arcos que saem Usar mapeamento pronto Algoritmo genético Cromossoma representa mapeamento Fitness-function é extensão do agendamento 47

48 Agendamento de ciclos Sem dependências Com dependências Grafo de fluxo 48

49 Agendamento de ciclos Programas com estrutura cíclica Tipicamente: for... Usado em compiladores de paralelização Analise das dependências sofisticado Para Computadores paralelos Processadores especializados Embeded systems 49

50 Agendamento de ciclos: sem dependências Aqui: agendamento estático Exemplo: for i = 1 to N A[i] = B[i] + C[i] endfor p processadores Agendamento estático típico: cada processador executa N/p iterações 50

51 Agendamento de ciclos: técnicas Quais iterações? Duas alternativas: Bloco Cada processador recebe um bloco corrente Cíclico As iterações são distribuídas ciclicamente entre os processadores 51

52 Agendamento de ciclos: bloco e cíclico bloco: cíclico: 52

53 Agendamento de ciclos: OpenMP Agendamento estático com OpenMP: schedule(kind, chunksize) kind: STATIC Bloco chunksize = N/p Cíclico chunksize = x << N/p 53

54 Agendamento de ciclos: com dependências Exemplo: for i = 1 to N a: A[i] = C[i-1] + 7 b: B[i] = A[i] + C[i-1] c: C[i] = A[i] + 99 endfor Dois tipos de dependências: Entre iterações Entre tarefas da mesma iteração 54

55 Grafo de fluxo for i = 1 to N a: A[i] = C[i-2] + 7 b: B[i] = A[i] + C[i-1] c: C[i] = A[i] + 99 d: D[i] = 3*C[i] endfor Grafo de fluxo: Semelhante com DAG Mas permite ciclos Cada ciclo tem de ter pelo menos um atraso 55

56 Agendamento de ciclos: unrolling Unrolling: Fazer do grafo de fluxo um DAG 56

57 Agendamento de ciclos: simples Ideia simples: Trata corpo do ciclo como um DAG 57

58 Agendamento de ciclos: software pipelining Software pipelining Usar o princípio de pipelining 58

59 Agendamento de ciclos: loop shifting Loop shifting Converter dependências entre iterações em dependências entre tarefas da mesma iteração for i = 1 to N a: A[i] = B[i-1] + 7 b: B[i] = C[i] + 6 endfor a: A[1] = B[0] + 7 for i = 2 to N b: B[i-1] = C[i-1] + 6 a: A[i] = B[i-1] + 7 endfor b: B[N] = C[N]

60 Agendamento de ciclos: retiming Retiming Generalização de loop shifiting Modificar os atraso num grafo de fluxo Objectivo: reduzir tempo de ciclo 60

61 Agendamento de ciclos: multidimensional for i = 0 to 5 for j = 0 to 5 A[i+1,j] = B[i,j] + C(i,j) B[i+1,j+1] = A[i,j] + 1 endfor endfor Uma iteração um nó Ciclos multidimensionais: alvo típico de compiladores de paralelização 61

62 Ciclos multidimensionais: técnicas Por exemplo: Skewing loop shifting Tiling... 62

63 Conclusão II: Introdução II: Agendamento dinâmico Sem dependências Mestre/escravo Agendamento de ciclos Com dependências Agendamento do sistema operativo III: Agendamento estático Agendamento de tarefas DAG Agendamento de ciclos Sem dependências Com dependências Grafo de fluxo 63

64 II: Contention scheduling Experimental results accuracy Execution of code on real parallel system Code generated from random graphs and schedules produced by 4 algorithms under classic and contention model Graph characteristic: CCR Communication to Computation Ratio Target systems: PC-Cluster, Sun E3500, Cray T3E classic contention classic contention classic contention CCR 0.1 CCR 1 CCR 10 64

65 II: Contention scheduling Experimental results efficiency classic contention classic contention classic contention CCR 0.1 CCR 1 CCR 10 Conclusions Greatly improved accuracy under contention model Considerable improvements of efficiency, i.e. reduction in execution time 65

66 III: Processor involvement Experimental results accuracy Schedules of previous experiments (under classic and contention model) rescheduled under involvement-contention model: Processor allocation and node order taken from schedules under other models example: PC-Cluster CL-LS(bl): LS classic model 66 LS(dls): LS contention model

67 III: Processor involvement Experimental results execution time Same experimental methodology Larger graph set, including regular graphs Same LS algorithm under the three different models Assuming 100% two-sided involvement avg. values Sun E3500, 4 proc. 67 PC-cluster, 16 proc.