Por que dez milhões de cores?

Transcrição

1 O primeiro passo para programar dez milhões de cores Álvaro Fazenda Denise Stringhini ICT-UNIFESP São José dos Campos ERAD-SP 2016 Por que dez milhões de cores? 192

2 top500.org (junho/2016) E o Brasil no Top 500? 193

3 Brasileiros no Top 500 E quanto às aplicações? 194

4 Aplicações Top 500 Arquitetura 195

5 Arquitetura Top 500 Exemplo: IBM Blue Gene 196

6 Memória compartilhada Espaço de endereçamento compartilhado entre os núcleos (cores). Multicore Programação: variáveis compartilhadas entre threads. OpenMP, Pthreads Memória distribuída Espaço de endereçamento não compartilhado entre nós de processamento. Cluster, MPP Programação: troca de mensagens entre processos. MPI, PVM MPP 197

7 Híbri dos Híbri dos 198

8 Computação heterogênea Uso de aceleradores para a obtenção de maior desempenho. Conexão PCIe. Transferência de dados. Programação: bibliotecas especí?cas para cada tipo de acelerador. CUDA, OpenCL, OpenMP 4, OpenAcc E o desempenho? High Performance Computing

9 Características que afetam o desempenho Dois dos principais objetivos do projeto de aplicações paralelas consistem em obter-se: Desempenho: a capacidade de reduzir o tempo de resolução do problema à medida que os recursos computacionais aumentam; Escalabilidade: a capacidade de aumentar o desempenho à medida que a complexidade do problema aumenta. Limites nos Algoritmos Paralelos Limites Arquiteturais Latência e Largura de Banda Capacidade de Memória Limites Algoritmicos Falta de Paralelismo (fração sequencial/concorrente) Frequência de Comunicação Frequência de Sincronização 200

10 Lei de Amdahl Lei de Amdahl 201

11 Comparação de desempenho Medida básica: Tempo de Execução O sistema A é n vezes mais rápido que o sistema B quando: Texec(A) / Texec(B) = n Maior desempenho Menor tempo de execução Speedup / E?ciência Speedup Medida de ganho em tempo Speedup(P) = Texec(1 proc) / Texec(P proc) Onde P = número de processadores 1 Speedup P E#ciência Medida de uso dos processadores Eciência(P) = Speedup(P) / P 0 < E'ciência 1 202

12 Programação Sequencial x Concorrente Algoritmo Sequencial: Sequência de passos para resolver um problema. Algoritmo Concorrente (de?nição aproximada): sequência de passos para resolver um problema + Decomposição em tarefas Mapeamento de tarefas (em processadores) Distribuição dos dados (entrada, saída e intermediários) Sincronização e Comunicação 203

13 Particionamento 1: blocos de linhas Particionamento 2: cíclico 204

14 Particionamento 3: blocos Exemplo 1: implementação direta (linha e coluna) 205

15 Exemplo 2: multiplicação de matrizes por blocos MPI Message Passing Interface 206

16 Introdução Biblioteca padrão para computação por troca de mensagens (memória distribuída) Rotinas de comunicação ponto-a-ponto e coletiva Métodos para criação de processos remotos Várias implementações existentes (MPICH, OpenMPI) Linguagens: C/C++ e Fortran Rotinas de comunicação ponto-a-ponto 207

17 MPI_Send Message tag 208

18 Communicator De?ne o escopo de comunicação Dentro deste escopo, cada processo possui um identi?cador ou rank Existe um comunicador padrão (default) que engloba todos os processos iniciados em uma aplicação: MPI_COMM_WORLD Usado em todas as rotinas de comunicação Exemplo Enviar o inteiro x do processo 0 ao processo 1 MPI_Comm_rank(MPI_COMM_WORLD,&myrank); /*?nd rank */ if (myrank == 0) { int x; MPI_Send(&x, 1, MPI_INT, 1, msgtag, MPI_COMM_WORLD); else if (myrank == 1) { int x; MPI_Recv(&x, 1, MPI_INT, 0,msgtag,MPI_COMM_WORLD,status); 209

19 Rotinas de comunicação coletiva Envolvem um conjunto de processos definidos pelo comunicador. Principais rotinas: MPI_Bcast() - Envia do root para todos os outros MPI_Gather() - Recolhe valores de um grupo MPI_Scatter()- Distribui um buffer entre processos MPI_Alltoall() - Envia de todos para todos MPI_Reduce() - Combina valores de vários processos MPI_Reduce_scatter() - Combina valores e distribui Broadcast PI_Bcast(void* buter, int count, MPI_Datatype datatype, int root, MPI_Comm com 210

20 Scatter MPI_Scatter(void* sendbuf, int sendcount, MPI_Datatype sendtype, void* recvbuf, int recvcount, MPI_Datatype recvtype, int root, MPI_Comm comm) Gather MPI_Gather(void* sendbuf, int sendcount, MPI_Datatype sendtype, void* recvbuf, int recvcount, MPI_Datatype recvtype, int root, MPI_Comm comm) 211

21 Reduce MPI_Reduce(void* sendbuf, void* recvbuf, int count, MPI_Datatype datatype, MPI_Op op, int root, MPI_Comm comm) Exemplo Root (processo 0) recebe items enviados de todos os demais processos e armazena em memória dinâmica. int data[10]; /*data to be gathered from processes*/ MPI_Comm_rank(MPI_COMM_WORLD, &myrank); /* find rank */ if (myrank == 0) { MPI_Comm_size(MPI_COMM_WORLD, &grp_size); /*find group size*/ buf = (int *)malloc(grp_size*10*sizeof (int)); /*allocate memory*/ MPI_Gather(data,10,MPI_INT,buf,grp_size*10,MPI_INT,0, MPI_COMM_WORLD) ; MPI_Gather() recebe de todos os processos, incluindo o root. 212

22 #include mpi.h #include <stdio.h> #include <math.h> #define MAXSIZE 1000 void main(int argc, char *argv) { int myid, numprocs; Exemplo de programa em MPI com C Broadcast/Reduce int data[maxsize], i, chunksize, low, high, myresult=0, result; char fn[255]; char *fp; MPI_Init(&argc,&argv); MPI_Comm_size(MPI_COMM_WORLD,&numprocs); MPI_Comm_rank(MPI_COMM_WORLD,&myid); if (myid == 0) { /* Open input file and initialize data */ strcpy(fn,getenv( HOME )); strcat(fn, /MPI/rand_data.txt ); if ((fp = fopen(fn, r )) == NULL) { printf( Can t open the input file: %s\n\n, fn); exit(1); for(i = 0; i < MAXSIZE; i++) fscanf(fp, %d, &data[i]); MPI_Bcast(data, MAXSIZE, MPI_INT, 0, MPI_COMM_WORLD); /* broadcast data */ chunksize= MAXSIZE/numprocs; /* Add my portion Of data */ low = myid * chunksize; high = low + chunksize; for(i = low; i < high; i++) myresult += data[i]; printf( I got %d from %d\n, myresult, myid); /* Compute global sum */ MPI_Reduce(&myresult, &result, 1, MPI_INT, MPI_SUM, 0, MPI_COMM_WORLD); if (myid == 0) printf( The sum is %d.\n, result); MPI_Finalize(); #include mpi.h #include <stdio.h> #include <math.h> #define MAXSIZE 1000 void main(int argc, char *argv) { int myid, numprocs; int data[maxsize], i, chunksize, low, high, myresult=0, result; char fn[255]; char *fp; MPI_Init(&argc,&argv); MPI_Comm_size(MPI_COMM_WORLD,&numprocs); MPI_Comm_rank(MPI_COMM_WORLD,&myid); if (myid == 0) { strcpy(fn,getenv( HOME )); strcat(fn, /MPI/rand_data.txt ); if ((fp = fopen(fn, r )) == NULL) { printf( Can t open the input file: %s\n\n, fn); exit(1); for(i = 0; i < MAXSIZE; i++) fscanf(fp, %d, &data[i]); MPI_Bcast(data, MAXSIZE, MPI_INT, 0, MPI_COMM_WORLD); /* broadcast data */ chunksize= MAXSIZE/numprocs; /* Add my portion Of data */ low = myid * chunksize; high = low + chunksize; for(i = low; i < high; i++) myresult += data[i]; printf( I got %d from %d\n, myresult, myid); /* Compute global sum */ MPI_Reduce(&myresult, &result, 1, MPI_INT, MPI_SUM, 0, MPI_COMM_WORLD); if (myid == 0) printf( The sum is %d.\n, result); MPI_Finalize(); Exemplo de programa em MPI com C Broadcast/Reduce 213

23 #include mpi.h #include <stdio.h> #include <math.h> #define MAXSIZE 1000 void main(int argc, char *argv) { int myid, numprocs; Broadcast/Reduce int data[maxsize], i, chunksize, low, high, myresult=0, result; char fn[255]; char *fp; MPI_Init(&argc,&argv); MPI_Comm_size(MPI_COMM_WORLD,&numprocs); MPI_Comm_rank(MPI_COMM_WORLD,&myid); if (myid == 0) { /* Open input file and initialize data */ strcpy(fn,getenv( HOME )); strcat(fn, /MPI/rand_data.txt ); if ((fp = fopen(fn, r )) == NULL) { printf( Can t open the input file: %s\n\n, fn); exit(1); for(i = 0; i < MAXSIZE; i++) fscanf(fp, %d, &data[i]); MPI_Bcast(data,MAXSIZE,MPI_INT, 0, MPI_COMM_WORLD); chunksize= MAXSIZE/numprocs; low = myid * chunksize; high = low + chunksize; for(i = low; i < high; i++) myresult += data[i]; printf( I got %d from %d\n, myresult, myid); /* Compute global sum */ MPI_Reduce(&myresult, &result, 1, MPI_INT, MPI_SUM, 0, MPI_COMM_WORLD); if (myid == 0) printf( The sum is %d.\n, result); MPI_Finalize(); Exemplo de programa em MPI com C #include mpi.h #include <stdio.h> #include <math.h> #define MAXSIZE 1000 void main(int argc, char *argv) { int myid, numprocs; int data[maxsize], i, chunksize, low, high, myresult=0, result; Scatter/Reduce char fn[255]; char *fp; MPI_Init(&argc,&argv); MPI_Comm_size(MPI_COMM_WORLD,&numprocs); MPI_Comm_rank(MPI_COMM_WORLD,&myid); if (myid == 0) { /* Open input file and initialize data */ strcpy(fn,getenv( HOME )); strcat(fn, /MPI/rand_data.txt ); if ((fp = fopen(fn, r )) == NULL) { printf( Can t open the input file: %s\n\n, fn); exit(1); for(i = 0; i < MAXSIZE; i++) fscanf(fp, %d, &data[i]); chunksize = MAXSIZE/numprocs; int rdata[chunksize]; MPI_Scatter(data, chunksize, MPI_INT, rdata, chunksize, MPI_INT, 0, MPI_COMM_WORLD); for(i = 0; i < chunksize; i++) myresult += rdata[i]; printf( I got %d from %d\n, myresult, myid); /* Compute global sum */ MPI_Reduce(&myresult, &result, 1, MPI_INT, MPI_SUM, 0, MPI_COMM_WORLD); if (myid == 0) printf( The sum is %d.\n, result); MPI_Finalize(); Exemplo de programa em MPI com C 214

24 #include mpi.h #include <stdio.h> #include <math.h> #define MAXSIZE 1000 void main(int argc, char *argv) { int myid, numprocs; Exemplo de programa em MPI com C Broadcast/Reduce int data[maxsize], i, chunksize, low, high, myresult=0, result; char fn[255]; char *fp; MPI_Init(&argc,&argv); MPI_Comm_size(MPI_COMM_WORLD,&numprocs); MPI_Comm_rank(MPI_COMM_WORLD,&myid); if (myid == 0) { /* Open input file and initialize data */ strcpy(fn,getenv( HOME )); strcat(fn, /MPI/rand_data.txt ); if ((fp = fopen(fn, r )) == NULL) { printf( Can t open the input file: %s\n\n, fn); exit(1); for(i = 0; i < MAXSIZE; i++) fscanf(fp, %d, &data[i]); MPI_Bcast(data, MAXSIZE, MPI_INT, 0, MPI_COMM_WORLD); /* broadcast data */ chunksize= MAXSIZE/numprocs; /* Add my portion Of data */ low = myid * chunksize; high = low + chunksize; for(i = low; i < high; i++) myresult += data[i]; printf( I got %d from %d\n, myresult, myid); /* Compute global sum */ MPI_Reduce(&myresult, &result, 1, MPI_INT, MPI_SUM, 0, MPI_COMM_WORLD); if (myid == 0) printf( The sum is %d.\n, result); MPI_Finalize(); #include mpi.h #include <stdio.h> #include <math.h> #define MAXSIZE 1000 void main(int argc, char *argv) { int myid, numprocs; int data[maxsize], i, chunksize, low, high, myresult=0, result; char fn[255]; char *fp; MPI_Init(&argc,&argv); MPI_Comm_size(MPI_COMM_WORLD,&numprocs); MPI_Comm_rank(MPI_COMM_WORLD,&myid); if (myid == 0) { strcpy(fn,getenv( HOME )); strcat(fn, /MPI/rand_data.txt ); if ((fp = fopen(fn, r )) == NULL) { printf( Can t open the input file: %s\n\n, fn); exit(1); for(i = 0; i < MAXSIZE; i++) fscanf(fp, %d, &data[i]); for(i = 0; i<numprocs; i++) MPI_Send(data,MAXSIZE,MPI_INT,i, 1,MPI_COMM_WORLD); else{ MPI_Recv(data,MAXSIZE,MPI_INT,0, 1,MPI_COMM_WORLD,MPI_STATUS_IGNORE); chunksize= MAXSIZE/numprocs; /* Add my portion Of data */ low = myid * chunksize; high = low + chunksize; for(i = low; i < high; i++) myresult += data[i]; printf( I got %d from %d\n, myresult, myid); /* Compute global sum */ MPI_Reduce(&myresult, &result, 1, MPI_INT, MPI_SUM, 0, MPI_COMM_WORLD); if (myid == 0) printf( The sum is %d.\n, result); MPI_Finalize(); Exemplo de programa em MPI com C Send/Recv 215

25 Compilação e execução Compilação: mpicc prog.c -o prog Execução local: mpirun -np 2 prog Mais de uma máquina: Necessário con?gurar o ssh para que realize a conexão sem exigir senha. O arquivo executável deve estar disponível em todas as máquinas. Criar um arquivo texto com os IPs das máquinas. Fornecer arquivo ao mpirun. Depuração e Visualização 216

26 Depuração Ferramenta difícil de encontrar para MPI, normalmente são paga$. Exemplo: TotalView, Intel Debugger Di?culdade: breakpoints distribuídos, parada em estado consistente Podem ser online ou post mortem. Ferramentas de visualização podem ser usadas para depuração Visualização Permite que os desenvolvedores consigam visualizar o comportamento do programa em diferentes níveis de detalhes. Eventos são coletados durante a execução do programa e são posteriormente mostrados em diferentes tipos de janelas de visualização. 217

27 Exemplo: Vampir spacetime Exemplo: Vampir communication matrix 218

28 Visu aliza ção de grafo s 219

29 Considerações?nais Apenas primeiro passo... Para programar dez milhões de cores também é necessário: OpenMP (incluindo aceleradores) CUDA, OpenCL, OpenACC outras (Charm++, OmpSS, etc) Estudo de algoritmos e técnicas de programação concorrente. Bibliogra?a Kaminsky, A. Building Parallel Programs: Smps, Clusters & Java. New York: Course Technology Ptr,2009. Wilkinson, B.; Allen, M. Parallel Programming Techniques & Applications Using Networked Workstations & Parallel Computers 2nd Edition,