Waldemar Celes. 25 de Agosto de 2014

Transcrição

1 Introdução a CUDA INF2062 Tópicos em Simulação e Visualização Waldemar Celes [email protected] Tecgraf, DI/PUC-Rio 25 de Agosto de 2014 W. Celes Introdução a CUDA 1

2 GPGPU Programação de propósito geral usando a GPU Simulação física Traçado de raio Processamento de imagem Ordenação... Álgebra W. Celes Introdução a CUDA 2

3 CUDA Compute Unified Device Architecture Modelo de programação de propósito geral usando GPU Hospedeiro (host) requisita execução de threads na GPU GPU é um dispositivo (device) visto como um co-processador A dedicated super-threaded co-processor W. Celes Introdução a CUDA 3

4 Hardware Gráfico Conjunto de multi-processadores (SM stream multiprocessor) Cada um composto por processadores escalares (SP) W. Celes Introdução a CUDA 4

5 Modelo de Programação Kernel É o equivalente a função em programação sequencial Executado N vezes por N diferentes threads no dispositivo A cada execução, o thread associado é identificado pela variável built-in threadidx Qualificador global identifica um kernel Número de threads informado na chamada: <<<... >>> W. Celes Introdução a CUDA 5

6 Exemplo: soma de vetores // Kernel definition global void VecAdd(float A, float B, float C) { int i = threadidx.x; C[i] = A[i] + B[i]; } int { } main()... // Kernel invocation with N threads VecAdd<<<1, N>>>(A, B, C); W. Celes Introdução a CUDA 6

7 Hierarquia de threads Threads são agrupados em blocos Número de threads num bloco é definido por 3 componentes Tipo dim3 Possibilita a identificação de threads em arranjos 1D, 2D e 3D Número de threads por bloco é limitado Threads de um bloco compartilham recursos W. Celes Introdução a CUDA 7

8 Hierarquia de threads Threads são agrupados em blocos Número de threads num bloco é definido por 3 componentes Tipo dim3 Possibilita a identificação de threads em arranjos 1D, 2D e 3D Número de threads por bloco é limitado Threads de um bloco compartilham recursos Cada thread executa num processdor Threads de um bloco executam em um mesmo SM Número máximo de threads por SM Exemplos: 1024 (GT200), 768 (G80) Diferentes blocos podem ser mapeados para um mesmo multi-processador W. Celes Introdução a CUDA 7

9 Exemplo: soma de matrizes // Kernel definition global void MatAdd (float A[N][N], float B[N][N], float C[N][N]) { int i = threadidx.x; int j = threadidx.y; C[i][j] = A[i][j] + B[i][j]; } int main () {... // Kernel invocation with one block of N N 1 threads int numblocks = 1; dim3 threadsperblock(n, N); MatAdd<<<numBlocks, threadsperblock>>>(a, B, C);... } W. Celes Introdução a CUDA 8

10 Organização de Blocos Blocos são organizados em grid 1D ou 2D Escolha do número de blocos depende: Tamanho do problema Número de multi-processadores (pode ser bem maior) Blocos são executados em ordem aleatória Distribuídos entre os multi-processadores Variáveis pré-definidas Índice do bloco: blockidx Dimensão do bloco: blockdim W. Celes Introdução a CUDA 9

11 Processamento de Matriz por Bloco j 16x16 i Por exemplo, blocos de tamanho 16x16 (256 threads) Pode ocorrer do número total de threads não ser divisível pelo número de threads por bloco Código deve verificar esta condição i = blockidx.x blockdim.x + threadidx.x W. Celes Introdução a CUDA 10

12 Exemplo: soma de matrizes por bloco // Kernel definition global void MatAdd(float A[N][N], float B[N][N], float C[N][N]) { int i = blockidx.x blockdim.x + threadidx.x; int j = blockidx.y blockdim.y + threadidx.y; if (i < N && j < N) C[i][j] = A[i][j] + B[i][j]; } int main() {... // Kernel invocation: assuming N and threads/block are multiple dim3 threadsperblock(16, 16); dim3 numblocks(n / threadsperblock.x, N / threadsperblock.y); MatAdd<<<numBlocks, threadsperblock>>>(a, B, C); } W. Celes Introdução a CUDA 11

13 Tamanho do bloco Qual tamanho de bloco devemos usar: 8 8, 16 16, 32 32? Considerando uma GT200 Até 1024 threads por SM Até 256 threads por bloco Até 8 blocos por SM W. Celes Introdução a CUDA 12

14 Tamanho do bloco Qual tamanho de bloco devemos usar: 8 8, 16 16, 32 32? Considerando uma GT200 Até 1024 threads por SM Até 256 threads por bloco Até 8 blocos por SM Com tamanho 8 8 Cada bloco teria 8 8 = 64 threads Para usar todo SM, teríamos que ter 1024/64 = 12 blocos W. Celes Introdução a CUDA 12

15 Tamanho do bloco Qual tamanho de bloco devemos usar: 8 8, 16 16, 32 32? Considerando uma GT200 Até 1024 threads por SM Até 256 threads por bloco Até 8 blocos por SM Com tamanho 8 8 Cada bloco teria 8 8 = 64 threads Para usar todo SM, teríamos que ter 1024/64 = 12 blocos Excede o limite de 8 blocos Teríamos então apenas 8 64 = 512 threads no SM W. Celes Introdução a CUDA 12

16 Tamanho do bloco Qual tamanho de bloco devemos usar: 8 8, 16 16, 32 32? Considerando uma GT200 Até 1024 threads por SM Até 256 threads por bloco Até 8 blocos por SM Com tamanho 8 8 Cada bloco teria 8 8 = 64 threads Para usar todo SM, teríamos que ter 1024/64 = 12 blocos Excede o limite de 8 blocos Teríamos então apenas 8 64 = 512 threads no SM Com tamanho = 256 threads por bloco 1024/246 = 4 blocos por SM OK! W. Celes Introdução a CUDA 12

17 Tamanho do bloco Qual tamanho de bloco devemos usar: 8 8, 16 16, 32 32? Considerando uma GT200 Até 1024 threads por SM Até 256 threads por bloco Até 8 blocos por SM Com tamanho 8 8 Cada bloco teria 8 8 = 64 threads Para usar todo SM, teríamos que ter 1024/64 = 12 blocos Excede o limite de 8 blocos Teríamos então apenas 8 64 = 512 threads no SM Com tamanho = 256 threads por bloco 1024/246 = 4 blocos por SM OK! Com tamanho = 512 threads por bloco Excede limite W. Celes Introdução a CUDA 12

18 Programação híbrida Hospedeiro x Dispositivo (hardware gráfico) Threads executados no dispositivo (co-processador) Memória do hospedeiro x Memória do dispositivo CUDA oferece funções de alocação e transferência de dados Memória do disponsitivo: linear ou CUDA array (textura) Execução concorrente assíncrona (hospedeiro-dispositivo) Operações assíncronas Disparo de kernels Cópia entre espaços de memória do dispositivo Hw pode permitir execução concorrente de diferente kernels W. Celes Introdução a CUDA 13

19 Compilação e Linkedição CUDA: estende a linguagem C Programa compilado com compilador CUDA (nvcc) Responsável por executar outras ferramentas de compilação (cudacc, gcc, etc.) Gera código C (que pode já ser compilado) Biblioteca runtime cudart, cuda W. Celes Introdução a CUDA 14

20 Espaços de Memória do Dispositivo Diferentes espaços de memória Memória local a cada thread Tempo de vida do thread Gerenciada automaticamente por CUDA como alternativa aos registradores (não é rápida) Memória compartilhada por bloco Tempo de vida do bloco Acesso compartilhado a todos os threads do bloco (baixa latência) Sincronismo através da função builtin: syncthreads (); Barreira que obriga todos os threads serem executados até o ponto da chamada (lightweight) Memórias persistentes entre kernels (alta latência) Memória global (read/write, not cached) Memória constante (read only, cached) Baixa latência se todos os threads acessam o mesmo endereço Memória de textura (read only, cached) W. Celes Introdução a CUDA 15

21 Uso da memória on-chip Memória com latência baixa Registradores de 32-bits por thread Memória compartilhada entre threads de um bloco Cache da memória constante Cache da memória de textura W. Celes Introdução a CUDA 16

22 Memórias do dipositivo W. Celes Introdução a CUDA 17

23 API para Gerenciamento de Memória Linear cudamalloc, cudafree, cudamemcpy // Host code int main() { int N =...; size t size = N sizeof(float); // Allocate input vectors h A and h B in host memory float h A = (float )malloc(size); float h B = (float )malloc(size); // Initialize input vectors... // Allocate vectors in device memory float d A; cudamalloc(&d A, size); float d B; cudamalloc(&d B, size); float d C; cudamalloc(&d C, size); // Copy vectors from host memory to device memory cudamemcpy(d A, h A, size, cudamemcpyhosttodevice); cudamemcpy(d B, h B, size, cudamemcpyhosttodevice); W. Celes Introdução a CUDA 18

24 // Invoke kernel int threadsperblock = 256; int blockspergrid = (N + threadsperblock 1) / threadsperblock; VecAdd<<<blocksPerGrid, threadsperblock>>>(d A, d B, d C, N); // Copy result from device memory to host memory // h C contains the result in host memory cudamemcpy(h C, d C, size, cudamemcpydevicetohost); // Free device memory cudafree(d A); cudafree(d B); cudafree(d C); } // Free host memory... W. Celes Introdução a CUDA 19

25 // Invoke kernel int threadsperblock = 256; int blockspergrid = (N + threadsperblock 1) / threadsperblock; VecAdd<<<blocksPerGrid, threadsperblock>>>(d A, d B, d C, N); // Copy result from device memory to host memory // h C contains the result in host memory cudamemcpy(h C, d C, size, cudamemcpydevicetohost); // Free device memory cudafree(d A); cudafree(d B); cudafree(d C); } // Free host memory... Memória com alinhamento para acesso 2D e 3D 2D: cudamallocpitch, cudamemcpy2d 3D: cudamalloc3d, cudamemcpy3d W. Celes Introdução a CUDA 19

26 } Eficiência de acesso a memória Exemplo: multiplicação de matriz com solução simplista global void MatMult (float A, float B, float C, int width) { int row = blockidx.y TILE SIZE + threadidx.y; int col = blockidx.x TILE SIZE + threadidx.x; float val = 0; for (int k = 0; k < width; ++k) val += A[row width+k] B[k width+col] C[row width+k] = val W. Celes Introdução a CUDA 20

27 } Eficiência de acesso a memória Exemplo: multiplicação de matriz com solução simplista global void MatMult (float A, float B, float C, int width) { int row = blockidx.y TILE SIZE + threadidx.y; int col = blockidx.x TILE SIZE + threadidx.x; float val = 0; for (int k = 0; k < width; ++k) val += A[row width+k] B[k width+col] C[row width+k] = val Cada thread processa um elemento da matriz resultante Cada elemento da matriz A é lido width vezes Cada elemento da matriz B é lido height vezes Muito acesso à memória global (é muito caro!) W. Celes Introdução a CUDA 20

28 Eficiência de acesso a memória Eficiência esperada do código A cada iteração do loop 2 acessos a memória global 2 operações aritméticas (1 multiplicação, 1 adição) W. Celes Introdução a CUDA 21

29 Eficiência de acesso a memória Eficiência esperada do código A cada iteração do loop 2 acessos a memória global 2 operações aritméticas (1 multiplicação, 1 adição) Razão entre computação e acesso a memória global Número de operações aritméticas por acesso global r = 2/2 = 1 Esta razão tem um forte impacto na eficiência de códigos W. Celes Introdução a CUDA 21

30 Eficiência de acesso a memória Eficiência esperada do código A cada iteração do loop 2 acessos a memória global 2 operações aritméticas (1 multiplicação, 1 adição) Razão entre computação e acesso a memória global Número de operações aritméticas por acesso global r = 2/2 = 1 Esta razão tem um forte impacto na eficiência de códigos Por exemplo, G80: largura de banda de acesso à global 86.4 GB/s 21.6 (86.4/4) Gfloat/s W. Celes Introdução a CUDA 21

31 Eficiência de acesso a memória Eficiência esperada do código A cada iteração do loop 2 acessos a memória global 2 operações aritméticas (1 multiplicação, 1 adição) Razão entre computação e acesso a memória global Número de operações aritméticas por acesso global r = 2/2 = 1 Esta razão tem um forte impacto na eficiência de códigos Por exemplo, G80: largura de banda de acesso à global 86.4 GB/s 21.6 (86.4/4) Gfloat/s Cada operação aritmética precisa de um acesso: 21.6 gigaflops 21.6 bilhões de operações de floating-point por segundo W. Celes Introdução a CUDA 21

32 Eficiência de acesso a memória Eficiência esperada do código A cada iteração do loop 2 acessos a memória global 2 operações aritméticas (1 multiplicação, 1 adição) Razão entre computação e acesso a memória global Número de operações aritméticas por acesso global r = 2/2 = 1 Esta razão tem um forte impacto na eficiência de códigos Por exemplo, G80: largura de banda de acesso à global 86.4 GB/s 21.6 (86.4/4) Gfloat/s Cada operação aritmética precisa de um acesso: 21.6 gigaflops 21.6 bilhões de operações de floating-point por segundo Muito abaixo do limite do processador: 367 gigaflops W. Celes Introdução a CUDA 21

33 Eficiência de acesso a memória Eficiência esperada do código A cada iteração do loop 2 acessos a memória global 2 operações aritméticas (1 multiplicação, 1 adição) Razão entre computação e acesso a memória global Número de operações aritméticas por acesso global r = 2/2 = 1 Esta razão tem um forte impacto na eficiência de códigos Por exemplo, G80: largura de banda de acesso à global 86.4 GB/s 21.6 (86.4/4) Gfloat/s Cada operação aritmética precisa de um acesso: 21.6 gigaflops 21.6 bilhões de operações de floating-point por segundo Muito abaixo do limite do processador: 367 gigaflops Solução: usar memória compartilhada W. Celes Introdução a CUDA 21

34 Memória Compartilhada Compartilhada por todos os threads do bloco Identificada pelo qualificador shared W. Celes Introdução a CUDA 22

35 Memória Compartilhada Compartilhada por todos os threads do bloco Identificada pelo qualificador shared Padrão comum de codificação para ganho de desempenho Carrega dados da memória global para compartilhada Sincroniza threads Processa dados armazenados na memória compartilhada Sincroniza threads Transfere resultado para memória global W. Celes Introdução a CUDA 22

36 Memória Compartilhada Exemplo: multiplicação de matriz com memória compartilhada Divide matrizes em sub-matrizes (mapeados para blocos de threads) Copia sub-matrizes de A e de B para memória compartilhada Faz a multiplicação entre duas sub-matrizes Acumula resultado da sub-matriz e transfere para global W. Celes Introdução a CUDA 23

37 Memória Compartilhada Exemplo: multiplicação de matriz com memória compartilhada Divide matrizes em sub-matrizes (mapeados para blocos de threads) Copia sub-matrizes de A e de B para memória compartilhada Faz a multiplicação entre duas sub-matrizes Acumula resultado da sub-matriz e transfere para global Menos acesso a memória global Cada elemento da matriz A é lido width/blocksize vezes Cada elemento da matriz B é lido height/blocksize vezes W. Celes Introdução a CUDA 23

38 Exemplo: multiplicação de matrizes // Matrix multiplication kernel called by MatMul() global void MatMulKernel(Matrix A, Matrix B, Matrix C) { // Block row and column int blockrow = blockidx.y; int blockcol = blockidx.x; // Each thread block computes one submatrix Csub of C Matrix Csub = GetSubMatrix(C, blockrow, blockcol); // Each thread computes one element of Csub float Cvalue = 0; // Thread row and column within Csub int row = threadidx.y; int col = threadidx.x; // Loop over all the submatrices of A and B for (int m = 0; m < (A.width / BLOCK SIZE); ++m) { // Get submatrix Asub of A Matrix Asub = GetSubMatrix(A, blockrow, m); // Get submatrix Bsub of B Matrix Bsub = GetSubMatrix(B, m, blockcol); // Shared memory used to store Asub and Bsub respectively shared float As[BLOCK SIZE][BLOCK SIZE]; shared float Bs[BLOCK SIZE][BLOCK SIZE]; W. Celes Introdução a CUDA 24

39 } // Load Asub and Bsub from device memory to shared memory // Each thread loads one element of each submatrix As[row][col] = GetElement(Asub, row, col); Bs[row][col] = GetElement(Bsub, row, col); // Synchronize to make sure the submatrices are loaded // before starting the computation syncthreads(); // Multiply Asub and Bsub together for (int e = 0; e < BLOCK SIZE; ++e) Cvalue += As[row][e] Bs[e][col]; // Synchronize to make sure that the preceding // computation is done before loading two new // submatrices of A and B in the next iteration syncthreads(); } // Write Csub to device memory // Each thread writes one element SetElement(Csub, row, col, Cvalue); Funções do tipo device GetSubMatrix: guarda referência para a sub-matriz na memória global GetElement/SetElement: lê/escreve um elemento na memória global W. Celes Introdução a CUDA 25

40 Memória como fator limitante Recursos de um SM compartilhado por todos os threads Registradores & Memória compartilhada Podem reduzir o número de threads por SM W. Celes Introdução a CUDA 26

41 Memória como fator limitante Recursos de um SM compartilhado por todos os threads Registradores & Memória compartilhada Podem reduzir o número de threads por SM Exemplo de limitação por registrador G80: 8K registradores por SM Número máximo de threads num SM: 768 Então: 8K/728 = 10 registradores por thread W. Celes Introdução a CUDA 26

42 Memória como fator limitante Recursos de um SM compartilhado por todos os threads Registradores & Memória compartilhada Podem reduzir o número de threads por SM Exemplo de limitação por registrador G80: 8K registradores por SM Número máximo de threads num SM: 768 Então: 8K/728 = 10 registradores por thread Se cada thread usa 11 registradores Número de threads por SM é reduzido Redução tem granularidade de bloco Se cada bloco tem 256 threads (um total de 3 blocos por SM) Apenas 2 blocos serão executados por SM: redução de 1/3 W. Celes Introdução a CUDA 26

43 Memória como fator limitante Exemplo de limitação por memória compartilhada W. Celes Introdução a CUDA 27

44 Memória como fator limitante Exemplo de limitação por memória compartilhada G80: 16kB de memória compartilhada por SM Número máximo de blocos por SM: 8 blocos Com 8 blocos, cada bloco pode usar 2kB W. Celes Introdução a CUDA 27

45 Memória como fator limitante Exemplo de limitação por memória compartilhada G80: 16kB de memória compartilhada por SM Número máximo de blocos por SM: 8 blocos Com 8 blocos, cada bloco pode usar 2kB Se cada bloco usa 5kB Apenas 3 blocos podem ser associados a um SM W. Celes Introdução a CUDA 27

46 Memória como fator limitante Exemplo de limitação por memória compartilhada G80: 16kB de memória compartilhada por SM Número máximo de blocos por SM: 8 blocos Com 8 blocos, cada bloco pode usar 2kB Se cada bloco usa 5kB Apenas 3 blocos podem ser associados a um SM No caso da multiplicação de matrizes: bloco de Cada bloco usa = 1kB por matriz Um total de 2kB para as duas matrizes G80: 768 threads por SM 3 blocos por SM Memória sub-utilizada: 3 2 = 6kB W. Celes Introdução a CUDA 27

47 Memória como fator limitante Exemplo de limitação por memória compartilhada G80: 16kB de memória compartilhada por SM Número máximo de blocos por SM: 8 blocos Com 8 blocos, cada bloco pode usar 2kB Se cada bloco usa 5kB Apenas 3 blocos podem ser associados a um SM No caso da multiplicação de matrizes: bloco de Cada bloco usa = 1kB por matriz Um total de 2kB para as duas matrizes G80: 768 threads por SM 3 blocos por SM Memória sub-utilizada: 3 2 = 6kB GT200: 1024 threads por SM 4 blocos por SM Memória também sub-utilizada: 4 2 = 8kB W. Celes Introdução a CUDA 27

48 Memória de Textura Pode ser linear ou CUDA array Referência de textura (declarado como global estática): texture <Type, Dim, ReadMode> ref; Type: 1, 2, 3, ou 4 componentes; tipo inteiro ou real. Dim: dimensão da textura (1, 2, ou 3). ReadMode: ElementType ou NormalizeFloat (mapeia inteiro em [0,1]). W. Celes Introdução a CUDA 28

49 Memória de Textura Pode ser linear ou CUDA array Referência de textura (declarado como global estática): texture <Type, Dim, ReadMode> ref; Type: 1, 2, 3, ou 4 componentes; tipo inteiro ou real. Dim: dimensão da textura (1, 2, ou 3). ReadMode: ElementType ou NormalizeFloat (mapeia inteiro em [0,1]). Parâmetros mutáveis: Coordenada de textura normalizada? [0, N) [0, 1) Modo de endereçamento (clamp ou wrap) Filtro (apenas para textura que retorna valor real) W. Celes Introdução a CUDA 28

50 Inter-operabilidade com APIs Gráficas Permite CUDA ler e escrever em recursos usados pela API gráfica OpenGL Buffer object: em CUDA é mapeado para um ponteiro de memória linear cudagraphicsglregisterbuffer Texture or render buffer: em CUDA é mapeado para um CUDA array cudagraphicsglregisterimage W. Celes Introdução a CUDA 29

51 Arquitetura do Hardware Gráfico CUDA executa num conjunto de multi-processadores (SM stream multiprocessor) Blocos são distribuídos entre os SMs disponíveis Threads de um bloco executam concorrentemente num SM Arquitetura de SM: SIMT (Single Instruction Multiple Threads) W. Celes Introdução a CUDA 30

52 Arquitetura do Hardware Gráfico CUDA executa num conjunto de multi-processadores (SM stream multiprocessor) Blocos são distribuídos entre os SMs disponíveis Threads de um bloco executam concorrentemente num SM Arquitetura de SM: SIMT (Single Instruction Multiple Threads) Um SM executa em paralelo grupo de 32 threads, denominados warps Blocos tem suas threads particionadas em warps, sequencialmente W. Celes Introdução a CUDA 30

53 Arquitetura do Hardware Gráfico CUDA executa num conjunto de multi-processadores (SM stream multiprocessor) Blocos são distribuídos entre os SMs disponíveis Threads de um bloco executam concorrentemente num SM Arquitetura de SM: SIMT (Single Instruction Multiple Threads) Um SM executa em paralelo grupo de 32 threads, denominados warps Blocos tem suas threads particionadas em warps, sequencialmente Um SM tem um número de warps residentes CUDA gerencia chaveamento de um warp para outro Custo do chaveamento é mínimo pois contexto está no chip Chaveamente entre warps tenta esconder latência E.g, enquanto faz-se um acesso a memória fora do chip W. Celes Introdução a CUDA 30

54 Performance Visando melhorar desempenho: Usar um número de threads por bloco que seja múliplo do tamanho do warp (i.e, 32) Minimizar transferências com alta latência Host Device On-chip Off-chip Usar page-locked memory para hospedeiro cudahostalloc, cudafreehost Transferência concorrente com execução de kernels Pode ser alocada no dispositivo Largura de banda pode ser maior Mas... é um recurso escasso. W. Celes Introdução a CUDA 31

55 Performance Acesso a memória do dispositivo Memória global Acessada via pacotes de 32, 64 ou 128 bytes Cada requisição de acesso é agrupada (coalesced) com outras requisições dentro do mesmo warp Agrupamento: Perfis antigos: sequencial e alinhado Perfis novos: alinhado (dentro do mesmo pacote) Memória compartilhada Baixa latência pois é no próprio chip Evitar bank conflict Memória divididas em módulos (banks) Acessos a banks distintos são simultâneos Memória constante Tem cache Memória de textura Tem cache de textura (otimizado para acesso 2D) W. Celes Introdução a CUDA 32

56 Performance Chaveamento de warps visa esconder latência da memória global Não é possível se todos os threads dependem do acesso Computação dependente da carga dos dados Pré-carga pode contornar problema W. Celes Introdução a CUDA 33

57 Performance Chaveamento de warps visa esconder latência da memória global Não é possível se todos os threads dependem do acesso Computação dependente da carga dos dados Pré-carga pode contornar problema Código sem pré-carga loop { loadtile(); syncthreads(); computetile(); syncthreads(); } Carrega, depois computa W. Celes Introdução a CUDA 33

58 Performance Chaveamento de warps visa esconder latência da memória global Não é possível se todos os threads dependem do acesso Computação dependente da carga dos dados Pré-carga pode contornar problema Código sem pré-carga loop { loadtile(); syncthreads(); computetile(); syncthreads(); } Carrega, depois computa Código com pré-carga loadfirsttile(); loop { transfertile(); syncthreads(); loadnexttile(); computetile(); syncthreads(); } Carrega enquanto computa W. Celes Introdução a CUDA 33

59 Performance Processadores com arquitetura SIMT Evitar divergência na linha de execução de threads de um warp Warp agrupam threads sequenciais W. Celes Introdução a CUDA 34

60 Performance Processadores com arquitetura SIMT Evitar divergência na linha de execução de threads de um warp Warp agrupam threads sequenciais Exemplo de REDUÇÃO: soma dos elementos de um vetor Sem coerência entre vizinhos shared float sum[];... int t = threadidx.x; for (int stride = 1; stride < blockdim.x; stride = 2) { syncthreads(); if (t % (2 stride) == 0) sum[t] += sum[t+stride] } W. Celes Introdução a CUDA 34

61 Performance Processadores com arquitetura SIMT Evitar divergência na linha de execução de threads de um warp Warp agrupam threads sequenciais Exemplo de REDUÇÃO: soma dos elementos de um vetor Com coerência entre vizinhos shared float sum[];... int t = threadidx.x; for (int stride = blockdim.x>>1; stride > 0; stride >>= 1) { syncthreads(); if (t < stride) sum[t] += sum[t+stride] } W. Celes Introdução a CUDA 35

62 N-body simulation Ref: GPU Gems 3 Chapter 31. Fast N-Body Simulation with CUDA Sistemas naturalmente quadráticos Exemplo: interação gravitacional entre planetas fij = G m im j r ij r ij 2 r ij W. Celes Introdução a CUDA 36

63 N-body simulation Ref: GPU Gems 3 Chapter 31. Fast N-Body Simulation with CUDA Sistemas naturalmente quadráticos Exemplo: interação gravitacional entre planetas fij = G m im j r ij r ij 2 r ij F i = 1 j N j i fij = Gm i 1 j N j i m j r ij r ij 3 W. Celes Introdução a CUDA 36

64 N-body simulation Ref: GPU Gems 3 Chapter 31. Fast N-Body Simulation with CUDA Sistemas naturalmente quadráticos Exemplo: interação gravitacional entre planetas fij = G m im j r ij r ij 2 r ij F i = 1 j N j i fij = Gm i 1 j N j i m j r ij r ij 3 F i Gm i 1 j N m j r ij, ɛ 2 > 0 ( r ij 2 + ɛ 2 ) 3 2 W. Celes Introdução a CUDA 36

65 Interação entre 2 corpos Cálculo da aceleração no corpo i devido ao corpo j Acumula aceleração no valor passado como parâmetro W. Celes Introdução a CUDA 37

66 Implementação simplista Cada thread calcula a aceleração total de um corpo Cada posição seria lida da memória global N vezes W. Celes Introdução a CUDA 38

67 Divisão em ladrilhos uso da memória compartilhada Cálculo de aceleração entre p corpos de um ladrilho Função assume que posição dos p corpos estão carregados na memória compartilhada Função executada por p threads em paralelo W. Celes Introdução a CUDA 39

68 Cálculo da aceleração total ladrilho a ladrilho Para cada corpo (thread) Para cada bloco de p corpos Carrega posições do ladrilho para memória Acumula aceleração do corpo com o ladrilho W. Celes Introdução a CUDA 40

69 OpenCL Padrão multi-plataforma para processamento paralelo Modelo de memória compartilhada Desenvolvido por Khronos Group, Apple, NVidia Suporte atual: AMD ATI GPU, NVIDIA GPU, x86 CPUs Fortemente baseado em CUDA Gerenciamento de dispositivo mais complexo por ser multi-plataforma Ainda não tão robusto quanto CUDA... W. Celes Introdução a CUDA 41

70 OpenCL Equivalência de conceitos OpenCL Kernel Host NDRange Work group Work item CUDA Kernel Host Grid Block Thread W. Celes Introdução a CUDA 42

71 OpenCL Equivalência de dimensões e índices OpenCL get local id(0) get local size(0) get global id(0) get global size(0) CUDA threadidx.x blockdim.x blockidx.x blockdim.x+threadidx.x griddim.x blockdim.x W. Celes Introdução a CUDA 43

72 OpenCL Equivalência de memórias OpenCL global memory constant memory local memory private memory CUDA global memory constant memory shared memory local memory W. Celes Introdução a CUDA 44

73 OpenCL Exemplo Kernel para processamento simples de imagem: modulate { } kernel void modulate ( int id = get global id(0); c[id] = a[id] b[id]; global const float a, global const float b, global float c) W. Celes Introdução a CUDA 45

74 OpenCL Exemplo Kernel para processamento simples de imagem: modulate { } kernel void modulate ( int id = get global id(0); c[id] = a[id] b[id]; global const float a, global const float b, global float c) Gerenciamento de dispositivos clcreatecontext clgetcontextinfo Application Kernel Kernel Cmd queue Cmd queue OpenCL device clcreatecommandqueue OpenCL device W. Celes Introdução a CUDA 45

75 Referância NVIDIA CUDA Reference Manual, version 3.1 June 2010 Programming Massively Parallel Processors D.B. Kirk, W.W. Hwu, 2010 Course Slides D.B. Kirk, W.W. Hwu ECE 498AL, University of Illinois, 2007 W. Celes Introdução a CUDA 46