CUDA. José Ricardo da Silva Jr.

Transcrição

1 CUDA José Ricardo da Silva Jr. Medialab Ins1tuto de Computação Universidade Federal Fluminense CUDA Research Center & CUDA Teaching Center Centro de excelência da NVIDIA desde julho 2012

2 Perfil Bacharel em Análise de Sistemas na Estácio. Mestre em Ciência da Computação na UFF (Computação Gráfica). Doutorando em Ciência da Computação na UFF (Computação Gráfica). Professor na Faculdade CCAA. Colaborador na empresa Nullpointer. Pesquisador na área de Computação Gráfica e GPGPU.

3 Introdução

4 Por que GPUs? =

5 Top 500

6 Top 500

7 Massivamente paralelo, mas não para qualquer problema.

8 Óleo e gás Esta é uma tecnologia de transformação que vai acelerar dras1camente nossa capacidade de descobrir e pesquisar novas reservas de óleo e gás, como 90% do nosso poder computacional vem das GPUs. Paulo Souza Geophysical Technology Group

9 Tratamento de câncer

10 Avanços na saúde A academia de ciências chinesa usou o poder computacional da GPU para simular o comportamento do virus H1N1 pela primeira vez

11 GPUs na industria Oil and gas Higher Ed Research Defense Government Seismic Processing Reservoir Astrophysics Molecular Dynamics Weather / Climate Signal Processing Satellite Imaging Video Analy@cs Life Sciences Bio- chemistry Bio- informa@cs Material Science Genomics Finance Manufacturing Risk Analy@cs Monte Carlo Op@ons Pricing Insurance Structural Mechanics Computa@onal Fluid Dynamics Electromagne@cs Soluções de arquiteturas dedicadas e desenvolvimento de tecnologia

12 Futuro & Eficiência

13 Energia

14 Tesla CUDA Architecture Roadmap 16 Maxwell 14 GFLOPS por Watt Kepler 4 2 Tesla Fermi

15 Disposi1vos móveis & Super Computadores

16 Pico de gigaflops Pico de largura de banda Kepler Kepler Gflops/s GBytes/s Fermi M2070 Fermi+ M Fermi M2070 Fermi+ M2090 M core Sandy Bridge 3 GHz core Sandy Bridge 3 GHz 200 M1060 Nehalem 3 GHz Westmere 3 GHz 50 Nehalem 3 GHz Westmere 3 GHz Double Precision: NVIDIA GPU Double Precision: x86 CPU NVIDIA GPU (ECC off) x86 CPU

17 1536 cores Paralelismo dinâmico Hyper - Q

18 A evolução da GPU

19 - Passado - Presente - Futuro Era uma vez uma GPU...

20 Pré-história dispositivos de rasterização - Custo U$ ,00

21 GPUs com funções fixas - Não eram programadas - Apenas computação gráfica - Sem qualquer acesso ao processador - U1lização através de APIs

22 Programmable GPU - Programação para os estágios de vér1ce e pixel - Totalmente dedicada a Computação Gráﬁca

23 Programmable GPU

24 GPU programavél

25 GPGPU - O processamento era realizado na etapa de processamento de vér1ce ou pixel - Vér1ces e/ou pixels - OpenGL ou DirectX

26 Unified Architectures

27 GPU x CPU

28 CPU Paralelismo

29 Conceito de thread

30 Thread custo de gerenciamento - CPUs são capazes de trabalhar com um pequeno número de thread Há custo de gerenciamento das thread em CPU (centenas de instruções) - GPUs u1lizam um outro paradigma (não tem gerenciamento de thread)

31 CUDA Arquitetura Unificada & Compute Unified Device Architecture

32 Estrutura das bibliotecas

33 Conceitos do CUDA GPU Disposi1vo de computação com capacidade de executar threads em paralelo (device). CPU envia processamento para a GPU (host). Kernel instância do programa Thread instância de um kernel Memória de vídeo / device Memória principal / host

34 Trabalhando com threads e blocos - Threads, Blocos e Grids: - C ódigo em GPU vai ser executado por um Grid de blocos. - Cada bloco contém até 2048 threads - Threads de um mesmo bloco podem compar1lhar memória

35 Trabalhando com threads e blocos Hierarquia de memória - Local - Cache L1 e L2 - Compar1lhada - Constante - Textura - Global

36 Conceitos do CUDA - Mul1processador & bloco - Core &Thread

37 O que baixar? - Driver - SDK - Toolkit - Link: hup://developer.nvidia.com/cuda/cuda- downloads

38 Instalando o driver - Driver - Desligar o servidor X do linux - Instalar previamente as bibliotecas do kernel corrente. É o kernel do linux - Arquivo /etc/bashrc # CUDA stuff! PATH=$PATH:/usr/local/cuda/bin! LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda/lib64! export PATH! export LD_LIBRARY_PATH!

39 CUDA - SDK - Compilador NVCC: - Separação dos códigos (host e device). - Compilação apenas do código do device. - A identificação do código do device é feito por qualificadores de funções e de variáveis. - Código do host é compilado por uma ferramenta própria (GCC, VC). - Gera código objeto.

40 Biblioteca CUDA run1me - Biblioteca dinâmica - cuda_run1me_api.h para C - cuda_run1me.h para C++ - Não requer inicializações - Modelo de programação: - host & device - Conjunto de funções: - Gerência - GPU (device) - Memória - Erros

41 Funções em CUDA global void KernelFunc1on (...) dim3 DimGrid (100, 10); // Uma grid com blocos dim3 DimBlock (4, 8, 8); // Cada bloco com 256 threads KernelFun <<< DimGrid, DimBlock >>> (...);

42 Funções em CUDA

43 O kernel global void vecadd(float* A, float* B, float* C) { int i = threadidx; C[i] = A[i] + B[i]; } int main() {... vecadd<<<1, N>>>(A, B, C); } threadidx à define um ID de um dos threads << n, m>> à numero de blocos (n) e threads (m) solicitados para o kernel

44 Blocos, threads e Kernels... global void vecadd(float* A, float* B, float* C) { int id = threadidx + blockid* blockdim; C[id] = A[id] + B[id]; } int main() { vecadd<<<m, N>>>(A, B, C); }

45 Detalhes do Kernel... global void vecadd(float* A, float* B, float* C) { int i = threadidx.x; C[i] = A[i] + B[i]; } int main() {... vecadd<<<1, N>>>(A, B, C); } threadidx à define um ID de um dos threads << n, m>> à numero de blocos (n) e threads (m) solicitados para o kernel

46 Detalhes do Kernel... global void vecadd(float* A, float* B, float* C) { int id = threadidx.x + blockid.x* blockdim.x; C[id] = A[id] + B[id]; } int main() { vecadd<<<m, N>>>(A, B, C); }

47 Sincronização - Entre threads de um bloco - Entre todos os blocos

48 Granularidade da thread // Let s do more work in each thread global void vecadd(float* A, float* B, float* C) { int id = threadidx.x + blockidx.x * blockdim.x; } While (id < N) { C[id] = A[id] + B[id]; id += blockdim.x * griddim.x; }

49 Memória

50 Hierarquia memória Memória Localização Fica em cache Tipo de acesso Escopo Registrador chip - R/W Thread Local GPU - R/W Thread Compar1lhada chip - R/W Bloco Global GPU SIM R/W Todas as threads Constante GPU SIM R Todas as threads Texture GPU SIM R Todas as threads

51 Memória global e sua taxa de acesso... G Gb por segundos x 367 GFlops K20 320Gb por segundos x 4.56 TFlops Observação: 86.4 Gb = 21.6 G ponto flutuante por segundo...)

52 E a memória compar1lhada? - Escopo de bloco - Tempo de acesso igual ao do registrador - Tamanho limitado

53 Primeiros passos

54 Meu primeiro programa! - Hello world soma de vetores - Estrutura do programa: 1. Alocação de memória 2. Cópia dos dados CPU à GPU 3. Execução do kernel 4. Cópia dos dados GPU à CPU 5. Desalocação da memória

55 Meu primeiro programa! 1. Alocação de memória - Aloca memória na GPU - cudaerror_t cudamalloc (void devptr, size_t size) - devptr à Ponteiro para a memória da GPU - Size à Quan1dade em bytes a serem alocadas

56 Meu primeiro programa! 2. Cópia dos dados CPU à GPU Cópia síncrona entre host e device (CPU ß à GPU) cudaerror_t cudamemcpy (void dst, const void src, size_t count, enum cudamemcpykind kind) dst à Memória de des1no src à Memória de origem count à Quan1dade em bytes a serem transferidos kind à Sen1do da copia CPUà GPU ou GPUà CPU

57 Meu primeiro programa! 3. Execução do kernel

58 Meu primeiro programa! 3. Execução do kernel Kernel executado pela GPU

59 Meu primeiro programa! 3. Execução do kernel Quan1dade de threads em um bloco Quan1dade de blocos

60 Meu primeiro programa! 3. Execução do kernel Vetores: C = A + B

61 Meu primeiro programa! 3. Execução do kernel Kernel executado pela GPU Vetores: C = A + B

62 Meu primeiro programa! 3. Execução do kernel Kernel executado pela GPU Vetores: C = A + B

63 Meu primeiro programa! 3. Execução do kernel Função responsável por sincronizar todas as threads e todos os blocos. cudaerror_t cudadevicesynchronize (void) Retorna erro quando o kernel falha

64 Meu primeiro programa! 4. Cópia dos dados GPU à CPU

65 Meu primeiro programa! 4. Cópia dos dados GPU à CPU 5. Desalocação da memória cudaerror_t cudafree (void devptr) devptr à Ponteiro para a memória da GPU

66 Driver versus Run1me - Compilando arquivo.cpp - Compilando arquivo.cu - Montando makefile - Driver - Funções com o prefixo cuxxxx - Requer inicialização - Código pré- compilado no formato PTX - Recompilação apenas do kernel para uma nova arquitetura - Run1me - Funções com prefixo cudaxxxx - Não requer qualquer inicialização - Código compilado junto com o código em C - Recompilação do projeto para cada nova arquitera <<< CÓDIGO >>>

67 Meu primeiro projeto - Compilando arquivo.cpp - Compilando arquivo.cu - Montando makefile <<< CÓDIGO >>>

68 WARPS

69 WARPS Unidade indivisível de threads que são alocadas a um mul1processador e são alocadas para a mesma instrução. Geralmente igual a 32. Hal Warp: metade de um warp (16) sendo executadas no mul1processador. Dica Modelar o problema para que seja múl1plo de 1 warp

70 Coalescência Memória global é acessada via uma transação de 32-, 64-, or 128- byte por um half- warp Podem resultar em uma ou duas transações se os requisitos de acesso forem cumpridos.

71 Coalescência Relacionado a compute capability (CC) Devices com CC < 1.2 tem requerimento de acesso mais restrito Ex: (32- bit) data:

72 CC 1.0 e 1.1 Coalescência K- th thread precisa acessar k- th palavra no segmento, sem necessidade de par1cipação de todas as threads

73 Coalescência CC 1.2 e superior Permitem transações para segmentos de 32B, 64B, and 128B Transações menores u1lizadas para evitar o desperdício de largura de banda

74 Operação com memória

75 Memória A comunicação da CPU com a GPU é limitada pelo barramento PCI- EXPRESS Uma boa dica é minimizar o processo de comunicação

76 Memória Compar1lhada Centenas de vezes mais rápida que a memória global. 64 KB por bloco (48 ou 16 KB) Rápida (~4 clocks) Global (~600 clocks) Threads no mesmo bloco podem cooperar na memória compar1lhada. Não acontece via memória global Uma forma de sua u1lização é par1cionar o dado em vários subconjuntos. Cada subconjunto é processado por um bloco.

77 Memória Compar1lhada U1lização de memória compar1lhada: mykernel<<<griddim,blockdim,sharedsize>>>( ); Desta forma, estamos solicitando sharedsize bytes a serem alocados de memória compar1lhada. Para acessar, dentro do kernel u1lizamos: global kernel( ){ extern shared <type> myshared[];

78 Estratégias Básicas Processar informação é menos custoso que movimentá- la entre memórias. GPU possui mais transistores para ALU do que memória. Cresce cada vez mais. Dessa forma, deve- se: Maximizar o de memória de baixa latência e maior largura O1mizar padrões de acesso. Esconder a latência de memória com bastante computação. Algumas vezes, recomputar a informação do que acessá- la na memória.

79 Hierarquia memória Organização dos dados, blocos e threads de forma a garan1r um acesso coalecente. Acesso coalecente é entendido em termos de alinhamento de memória global Cada versão de GPU (capability) tem uma polí1ca própria

80 Ver código (Memória) Mul1plicação de matrizes Global Compar1lhada

81 Mul1plicação de Matriz! # "# y 0 y 1 $! & %& = m 00 m # 01 "# m 10 m 11 $! &# %& "# x 0 x 1 $ & %&

82 Mul1plicação de Matriz Thread0! # "# y 0 y 1 $! & %& = m 00 m # 01 "# m 10 m 11 $! &# %& "# x 0 x 1 $ & %&

83 Mul1plicação de Matriz Thread1! # "# y 0 y 1 $! & %& = m 00 m # 01 "# m 10 m 11 $! &# %& "# x 0 x 1 $ & %&

84 Introducing Kepler K10 & K20

85 Tesla K10 Tesla K20 Single Precision 1.8x Memory Bandwidth Seismic, Imaging, Signal, Molecular Dynamics Double Precision Hyper-Q, Dynamic Parallelism CFD, FEA, Finance, Physics Available Now Available Q4 2012

86 Kepler K10 Comparison Product Name M2090 K10 GPU Architecture Fermi Kepler GK # of GPUs Per GPU Board 4.58 TF Single Precision Flops 1.3 TF 2.29 TF Double Precision Flops 0.66 TF TF TF # CUDA Cores Memory size 6 GB 4GB 8 GB Memory BW (ECC oﬀ) PCI- Express GB/s 160GB/s 320 GB/s Gen 2: 8 GB/ s Gen 3: 16 GB/s

87 Kepler GK110 Block Diagram Architecture 7.1B Transistors 15 SMX units > 1 TFLOP FP MB L2 Cache 384- bit GDDR5 PCI Express Gen3

88 GK104: Fast & Efficient SM M2090 SMX K10 CONTROL LOGIC CONTROL LOGIC 2x Perf / Watt 32 cores 192 cores

89 Kepler GK110 SMX vs Fermi SM

90 SMX: Efficient Performance Power- Aware SMX Architecture Clocks & Feature Size SMX result - Performance up Power down

91 What is Dynamic Parallelism? The ability to launch new grids from the GPU Dynamically Simultaneously Independently CPU GPU CPU GPU Fermi: Only CPU can generate GPU work Kepler: GPU can generate work for itself

92 What Does It Mean? CPU GPU CPU GPU GPU as Co- Processor Autonomous, Dynamic Parallelism

93 Dynamic Work Genera1on Coarse grid Fine grid Dynamic grid Higher Performance Lower Accuracy Lower Performance Higher Accuracy Target performance where accuracy is required

94 Familiar Syntax and Programming Model int main() { float *data; setup(data); A <<<... >>> (data); B <<<... >>> (data); C <<<... >>> (data); CPU main } cudadevicesynchronize(); return 0; GPU global void B(float *data) { do_stuff(data); X <<<... >>> (data); Y <<<... >>> (data); Z <<<... >>> (data); cudadevicesynchronize(); A B X Y } do_more_stuff(data); C Z

95 Simpler Code: LU Example LU decomposition (Fermi) LU decomposition (Kepler) dgetrf(n, N) { for j=1 to N for i=1 to 64 idamax<<<>>> memcpy dswap<<<>>> memcpy dscal<<<>>> dger<<<>>> next i } memcpy dlaswap<<<>>> dtrsm<<<>>> dgemm<<<>>> next j idamax(); dswap(); dscal(); dger(); dlaswap(); dtrsm(); dgetrf(n, N) { dgetrf<<<>>> CPU is Free synchronize(); } dgetrf(n, N) { for j=1 to N for i=1 to 64 idamax<<<>>> dswap<<<>>> dscal<<<>>> dger<<<>>> next i dlaswap<<<>>> dtrsm<<<>>> dgemm<<<>>> next j } dgemm(); CPU Code GPU Code CPU Code GPU Code

96 Kepler Enables Full NVIDIA GPUDirect System Memory GDDR5 Memory GDDR5 Memory GDDR5 Memory GDDR5 Memory System Memory CPU GPU1 GPU2 GPU2 GPU1 CPU PCI-e PCI-e Network Card Network Network Card Server 1 Server 2

97 Introducing CUDA 5

98 The Soul of CUDA The Platform for High Performance Parallel Computing Accessible High Performance Enable Computing Ecosystem

99 CUDA By the Numbers: >375,000,000 >1,000,000 >120,000 >500 CUDA-Capable GPUs Toolkit Downloads Active Developers Universities Teaching CUDA

100 Beyond CUDA 5

101 Rapid Parallel C++ Development " Resembles C++ STL " Open source " High- level interface " Enhances developer " Enables performance portability between GPUs and CPUs " Flexible " CUDA, OpenMP, and TBB backends " Extensible and customizable " Integrates with soiware // generate 32M random numbers on host thrust::host_vector<int> h_vec(32 << 20); thrust::generate(h_vec.begin(), h_vec.end(), rand); // transfer data to device (GPU) thrust::device_vector<int> d_vec = h_vec; // sort data on device thrust::sort(d_vec.begin(), d_vec.end()); // transfer data back to host thrust::copy(d_vec.begin(), d_vec.end(), h_vec.begin()); hup://developer.nvidia.com/thrust or hup://thrust.googlecode.com

102 OpenACC Direc1ves CPU GPU Simple Compiler hints The image cannot be displayed. Your computer may not have enough memory to open the image, or the image may have been corrupted. Restart your computer, and then open the file again. If the red x still appears, you may have to delete the image and then insert it again. Compiler Parallelizes code Program myscience... serial code...!$acc kernels do k = 1,n1 do i = 1,n2... parallel code... enddo enddo!$acc end kernels... End Program myscience OpenACC Compiler Hint Works on many-core GPUs & multicore CPUs Your original Fortran or C code

103 Building A Massively Parallel Future The Future is Heterogeneous Many solu1ons build a heterogeneous future General- purpose Languages Direc1ves Domain Specific Languages

104 Graphics Computing

105 Cloud Graphics Computing

106 KEPLER THE WORLD S FIRST GPU for CLOUD COMPUTING Virtualized GPU Low Latency Remote Display Super energy-efficiency

107