Aplicações em CUDA. Medialab Instituto de Computação Universidade Federal Fluminense NVIDIA CUDA Research Center

Transcrição

1 Aplicações em CUDA Medialab Instituto de Computação Universidade Federal Fluminense NVIDIA CUDA Research Center

2 Roteiro l Introdução l Eventos l Aspectos históricos l Operações atômicas l Introdução sobre CUDA l Fluxo l l l Trabalhando com threads e blocos Biblioteca CUDA runtime Hierarquia de memória l l Filtro sobel CPU x GPU Arquitetura Fermi l Heap l Memória constante l Memória de textura l Memória compartilhada

3 Introdução

4 Introdução - Aspectos históricos GPGPU a evolução: As 4 fases históricas das GPUs: Dispositivos de Rasterização Fixed Function GPU Programmable GPU Arquitetura Unificada

5 Introdução - Aspectos históricos GPGPU: Problema de ter que mapear tudo para APIs Usar funções OpenGL ou DirectX para efetuar todo tipo de operações

6 Introdução sobre CUDA Arquitetura Unificada & Compute Unified Device Architecture

7 Introdução sobre CUDA GPU: Mais transistores para matemática Menos transistores para controle de fluxo do programa

8 Introdução sobre CUDA Threads Custo de gerenciamento CPU: O custo de para troca de contexto de thread em CPU é cara Em CPU, como fazemos pouca troca de threads, podemos achar natural gastar 1000 instruções para fazer a troca de uma thread para outra. Em CUDA há outro paradigma... Não é necessário gerenciar as threads, a priori

9 Introdução sobre CUDA l Estrutura das bibliotecas:

10 Introdução sobre CUDA l Conceitos do CUDA: A GPU Dispositivo de computação com capacidade de executar threads em paralelo. A CPU Host que trabalha em conjunto com a GPU Kernel instância do programa Thread instância de um kernel Memória de vídeo / device Memória principal / host

11 Trabalhando com threads e blocos Threads, Blocos e Grids: Código em GPU vai ser executado por um Grid de blocos. Cada bloco contém até 1024 threads Threads de um mesmo bloco podem compartilhar memória

12 Trabalhando com threads e blocos Hierarquia de memória Local Cache L1 e L2 Compartilhada Constante Textura Global

13 Biblioteca CUDA runtime Biblioteca dinâmica cuda_runtime_api.h para C cuda_runtime.h para C++ Não requer inicializações Modelo de programação: host & device Conjunto de funções: Gerência GPU (device) Memória Erros

14 Biblioteca CUDA runtime Funções: Gerências: Devices Streams Memória Eventos Captura de erro

15 Mão na massa!!!!

16 Instalação Instalação e o que baixar: Site: Itens para baixar: Driver CUDA toolkit

17 Meu primeiro programa! Hello world soma de vetores Estrutura do programa: 1. Alocação de memória 2. Cópia dos dados CPU à GPU 3. Execução do kernel 4. Cópia dos dados GPU à CPU 5. Desalocação da memória

18 Meu primeiro programa! 1. Alocação de memória Aloca memória na GPU cudaerror_t cudamalloc (void devptr, size_t size) devptr Ponteiro para a memória da GPU Size Quantidade em bytes a serem alocadas

19 Meu primeiro programa! 2. Cópia dos dados CPU à GPU Cópia síncrona entre host e device (CPU ß à GPU) cudaerror_t cudamemcpy (void dst, const void src, size_t count, enum cudamemcpykind kind) dst Memória de destino src Memória de origem count Quantidade em bytes a serem transferidos kind Sentido da copia CPUà GPU ou GPUà CPU

20 Meu primeiro programa! 3. Execução do kernel

21 Meu primeiro programa! 3. Execução do kernel Kernel executado pela GPU

22 Meu primeiro programa! 3. Execução do kernel Quantidade de threads em um bloco Quantidade de blocos

23 Meu primeiro programa! 3. Execução do kernel Vetores: C = A + B

24 Meu primeiro programa! 3. Execução do kernel Kernel executado pela GPU Vetores: C = A + B

25 Meu primeiro programa! 3. Execução do kernel Kernel executado pela GPU Vetores: C = A + B

26 Meu primeiro programa! 3. Execução do kernel Função responsável por sincronizar todas as threads e todos os blocos. cudaerror_t cudadevicesynchronize (void) Retorna erro quando o kernel falha

27 Meu primeiro programa! 4. Cópia dos dados GPU à CPU

28 Meu primeiro programa! 4. Cópia dos dados GPU à CPU 5. Desalocação da memória cudaerror_t cudafree (void devptr) devptr Ponteiro para a memória da GPU

29 Operação com memória

30 Memória A comunicação da CPU com a GPU é limitada pelo barramento PCI-EXPRESS Uma boa dica é minimizar o processo de comunicação

31 Hierarquia memória Organização dos dados, blocos e threads de forma a garantir um acesso coalecente. Acesso coalecente é entendido em termos de alinhamento de memória global Cada versão de GPU (capability) tem uma política própria

32 Hierarquia memória Memória Localização Fica em cache Tipo de acesso Escopo Registrador chip - R/W Thread Local GPU - R/W Thread Compartilhada chip - R/W Bloco Global GPU SIM R/W Todas as threads Constante GPU SIM R Todas as threads Texture GPU SIM R Todas as threads

33 Operação atômica

34 Operação atômica A função atômica executa três comandos: leitura à modificação à escrita As operações podem ser feitas na memória global ou compartilhada. Trabalham com palavras de 32/64-bit Garante que apenas um thread por vez vai acessar a memória

35 Operação atômica Memória global Threads Bloco 1 Bloco 2 0

39 Ver código (operação atômica)

40 Operações com stream

41 Operações com stream Permite cópia assíncrona dos dados Sobre põe as tarefas de cópia e processamento na GPU Alocação da memória de CPU no-swap Kernel Cópia assíncrona Sincronismo Kernel Cópia assíncrona Linha do tempo

42 Operações com stream Para GPUs que permitem kernels concorrentes é necessário verificar a existência de dependência Cópia concorrente de dados. Performance medida através de eventos.

43 Ver código (operação Stream)

44 Orientação a objeto em CUDA

45 Orientação a objeto em CUDA Classes Não suporta: Método ou atributo static Métodos não suporta qualificador global Suporta: Herança Polimorfismo

46 Orientação a objeto em CUDA

47 Ver código (classes)

48 Ver código (Memória)

49 Ver código (Memória) Matriz transposta

50 Ver código (Memória) Matriz transposta Textura: apenas inverte linha por coluna Memória de textura Memória global

51 Ver código (Memória) Matriz transposta (1 bloco com 4 threads) Compartilhada: Memória global Memória global Memória compartilhada

52 Ver código (Memória) Matriz transposta Compartilhada: Memória global Thread[0,0] Memória global Memória compartilhada

56 Ver código (Memória) Matriz transposta Compartilhada: Memória global Memória global Memória compartilhada

59 Ver código (Memória) Matriz transposta Compartilhada: Memória global Memória global Memória compartilhada

60 Método das diferenças finitas para simulação de ondas na GPU

61 Método das diferenças finitas para simulação de ondas na GPU O problema: 2 u 2 t = 2 u 2 x + 2 u 2 y Domínio: Ω = [ 0, L x ] [0, Ly ] u( Ω,0) = 0 Condição inicial: u( Ω,1) = 0 Condição de contorno (Dirichlet): u(0,0) = 0 u( L u( L x x, L u(0, L,0) = 0 y y ) = 0 ) = 0

62 Método das diferenças finitas para simulação de ondas na GPU GPU & CUDA - Compute Unified Device Architecture) uiliza o paradigma de programação de fluxo. Memória comparilhada

63 Método das diferenças finitas para simulação de ondas na GPU Mapeamento do problema na GPU: Domínio processado pelo bloco (0,0) Domínio processado pelo bloco (0,1) Região compartilhada entre blocos

64 Método das diferenças finitas para simulação de ondas na GPU Performance - Programa Dominio X Dominio Y Dominío em T Total Tempo (s) Gigasample blocos X blocos Y UFF shared UFF textura UFF shared UFF textura UFF shared E UFF textura E UFF shared UFF textura UFF shared UFF textura UFF shared E UFF textura E UFF shared UFF textura UFF shared UFF textura UFF shared E UFF textura E

65 Método das diferenças finitas para simulação de ondas na GPU Performance -

66 Método das diferenças finitas para simulação de ondas na GPU Performance -

67 Filtro Sobel

68 Filtro Sobel É um algoritmo usado para definir bordas em imagens

69 Filtro Sobel Algoritmo

73 Filtro Sobel A borda é definida pelo gradiente da imagem O algoritmo intensifica o gradiente da borda O Cálculo é feito com base na convolução da imagem com dois filtros

74 Filtro Sobel Após a aplicação dos filtros, a magnetude é dada por:

75 Ver código (Sobel)

76 Arquitetura FERMI Pilha, Recursão e Heap

77 Pilha & Recursão cudaerror_t cudadevicegetlimit(size_t* size, cudalimit limit) size Tamanho da memória heap (8M default) limit Tipo enum que define a memória (heap, stack e buffer para printf) cudaerror_t cudadevicesetlimit (enum cudalimit limit, size_t value) Apenas para GPUs com capability 2.x Parâmetro limit = cudalimitstacksize

78 Ver código (Pilha)

79 Arquitetura FERMI Heap & Alocação dinâmica de memória

80 Heap & Alocação dinâmica de memória Arquitetura FERMI possui memória HEAP CPU aloca a memória HEAP Permite alocação dinâmica na memória global e compartilhada A área de heap é definida pela CPU.

81 Heap & Alocação dinâmica de memória cudaerror_t cudadevicegetlimit(size_t* size, cudalimit limit) size Tamanho da memória heap (8M default) limit Tipo enum que define a memória (heap, stack e buffer para printf) cudaerror_t cudadevicesetlimit (enum cudalimit limit, size_t value) Apenas para GPUs com capability 2.x Parâmetro limit = cudalimitmallocheapsize

82 Ver código (Heap)

83 Perguntas????