Celso L. Mendes LAC /INPE

Tamanho: px

Começar a partir da página:

Download "Celso L. Mendes LAC /INPE"

Maria da Assunção Santana Carvalho
7 Há anos
Visualizações:

1 Arquiteturas para Processamento de Alto Desempenho (PAD) Aula 9 Celso L. Mendes LAC /INPE celso.mendes@inpe.br

2 Aula 9 (3/5): E. Aceleradores Estrutura Planejada i. Estruturas mais Populares ii. Programação em Aceleradores 2

3 Aceleradores Objetivo Complementar CPU de propósito geral com maior capacidade de cálculos numéricos Longo histórico Co-processadores aritméticos, DSPs, etc. Esquema predominante CPU é usada para programação, coordenação da execução Acelerador opera sobre partes críticas da tarefa Tipos de aceleradores: vários! 3

4 Sistemas com Aceleradores Estrutura Típica: 4

5 Aceleradores (1): GPU Graphics Processing Unit Inicialmente criada para processor exclusivamente gráficos Mercados de massa: placas de video de PCs, consoles de jogos Preço accessível, devido à economia de escala Difícil programação, tarefa para especialistas Primeiros modelos: ponto-flutuante em precisão simples GPGPU: General Purpose GPUs Possibilidade de uso em aplicações de PAD Ponto-flutuante em precisão dupla Esforço para facilitar as técnicas de programação 5

6 GPU (cont.) GPU Exemplo: Nvidia K40 Mais de 7.1 bilhões de transistores Relógio: 745 MHz 15 processadores SMX, 192 núcleos/processador 2880 núcleos no total Threads são agrupados em conjuntos de 32 (warp) Desempenho: mais que 1 Tflops efetivos, em precisão dupla 80% do desempenho de pico 6 canais de acesso à memória de 64 bits cada Hierarquia de memória cache L1: em cada processador SMX cache L2: compartilhada memória principal (externa) DRAM, com ECC opcional 6

7 GPU (cont.) Nvidia K40 Diagrama de Blocos: Processador SMX (15) Cache L2 Cache L1 fonte: Nvidia Control.Memória (6) 7

8 Nvidia K40 Proc. SMX GPU (cont.) Núcleos (192) fonte: Nvidia Cache L1 8

9 Aceleradores (2): Proc. Many-Core Extensão de multi-core Princípios Conjunto de núcleos simples, na mesma pastilha Comunicação entre núcleos é interna (rápida) Número de núcleos bem mais alto que o usual Exemplo: Intel MIC Many-Integrated-Cores (Xeon-Phi) Protótipo: Knights Ferry: 32 núcleos x86/pentium 1 a geração: Knights Corner: ~60 núcleos+vector Unit, Tianhe-2 2 a geração: Knights Landing: 72 núcleos, func. autônomo 3 a geração: Knights Hill:??? 9

10 Processador Many-Core (cont.) Intel Xeon-Phi 1a Geração fonte: Intel 10

11 Processador Many-Core (cont.) Intel Xeon-Phi Arquitetura Interna fonte: Intel 11

12 Programação de Aceleradores ManyCore - Intel Xeon-Phi: Em cada CPU: código x86 + instruções vetoriais Em cada chip: OenMP para os vários núcleos -- até 244 threads! Múltiplos chips: MPI (combinado com OpenMP em cada chip) GPU: duas alternativas concretas a. Diretivas OpenACC, OpenMP b. Linguagens OpenCL, CUDA (para GPUs da Nvidia) CUDA: extensão de C, com duas modificações 1. Declaração de funções (kernels) para a GPU: global mykernel 2. Invocação de kernels: mykernel<<<val1,val2>>>(args) 12

13 Exemplo com CUDA roda na GPU roda na CPU 4 blocos, 2 threads/bloco 13

14 Exemplo com CUDA (cont.) Compilação/link: nvcc o prog prog.cu Execução: No inicio do Programa Principal Dentro do Kernel, valor= 9 coords=1,0 Dentro do Kernel, valor=10 coords=1,1 Dentro do Kernel, valor=18 coords=2,0 Dentro do Kernel, valor=19 coords=2,1 Dentro do Kernel, valor=27 coords=3,0 Dentro do Kernel, valor=28 coords=3,1 Dentro do Kernel, valor= 0 coords=0,0 Dentro do Kernel, valor= 1 coords=0,1 No final do Programa Principal 14

Documentos relacionados

Técnicas de Processamento Paralelo na Geração do Fractal de Mandelbrot

Técnicas de Processamento Paralelo na Geração do Fractal de Mandelbrot Bruno Pereira dos Santos Dany Sanchez Dominguez Esbel Tomás Evalero Orellana Universidade Estadual de Santa Cruz Roteiro Breve introdução