Sparse Matrix-Vector Multiplication on GPU: When Is Rows Reordering Worthwhile?

Tamanho: px

Começar a partir da página:

Download "Sparse Matrix-Vector Multiplication on GPU: When Is Rows Reordering Worthwhile?"

Joaquim Olivares Bentes
6 Há anos
Visualizações:

1 Sparse Matrix-Vector Multiplication on GPU: When Is Rows Reordering Worthwhile? Paula Prata João Muranho Instituto de Telecomunicações Departamento de Informática Universidade da Beira Interior Instituto de Telecomunicações IMAR Instituto do Mar, Departamento de Ciências da Vida Universidade de Coimbra

2 Motivação Evolução da capacidade de cálculo das placas gráficas (GPUs Graphics Processing Units). Desenvolvimento de interfaces de programação para GPU, que permitem programar a placa gráfica com linguagens de alto nível ( C/C++, Phyton, Java, ): - CUDA 1 (NVIDIA), - Brook+ (AMD/ATI), - OpenCL. Aumento da investigação sobre como usar a GPU para aplicações não gráficas: GPGPU General Purpose computation on GPU.s.

3 GPGPU - Áreas de Aplicação Problemas com paralelismo de dados, o mesmo código é executado simultaneamente em diferentes segmentos de dados. Exemplos : - Simulação de modelos moleculares, - Previsão meteorológica, - Processamento de sinal, finanças,... Problemas de cálculo cientifico que envolvem a manipulação de matrizes de grande dimensão. Vários estudos mostram que para problemas que manipulam matrizes densas, a GPU permite grandes ganhos de desempenho.

4 Objetivos Estudo da operação: produto matriz esparsa - vector Operação dominante em problemas de resolução de sistemas de equações lineares, e no cálculo de valores próprios Formato de representação de matrizes esparsas condiciona o desempenho Análise do impacto da ordenação das linhas pelo número de elementos não zero Formato CSR Formato ELL

5 Arquitectura GPU da NVIDIA: GeForce GTX 295 Array de multi-processadores

6 Arquitectura GPU da NVIDIA: GeForce GTX 295 Cada multiprocessador com: 8 processadores (cores) Um conjunto de registos Área de memória partilhada Uma unidade de operações em virgula flutuante de precisão dupla (capability 1.3)

7 Modelo de Programação CUDA Um programa em execução na CPU (host) pode: Copiar dados da CPU para a GPU e vice-versa Lançar a execução de funções na GPU (Kernel.s) Executar operações de sincronização Cada Kernel é executado por múltiplas threads em simultâneo sobre diferentes conjuntos de dados Modelo de execução: Em cada multiprocessador Simple Instruction Multiple Data Na GPU Simple Program Multiple Data.

8 Modelo de Programação CUDA Threads agrupadas em blocos dimensionáveis pelo utilizador. É criada uma grelha na qual são distribuídos os blocos de threads.

9 Modelo de Programação CUDA A grelha é associada à placa gráfica. Cada bloco é associado a um multiprocessador. As threads de um bloco são executadas pelos núcleos do multiprocessador associado ao bloco. Unidade de escalonamento ( warp) =32

10 Hardware e Linguagens Intel Core 2 Quad Q9550 a 2.83 GHz, com 4 GB de RAM Nvidia Geforce GTX 295 (30 multiprocessadores, 8 cores cada a 1,24 GHz, 2GB memória global) CUDA versão 2.3 Visual Studio, C/C++ Matrizes: sintéticas e Williams multi-core benchmarking

11 Matrizes Esparsas Formatos de Armazenamento COO Coordinate Format Linhas Colunas Valores

12 Formatos de Armazenamento: CSR Formato CSR Compressed Sparse Row ptr = índices das colunas= dados = Número de não zeros Os elementos são armazenados por linhas

13 Formatos de Armazenamento: ELL - R Formato ELLPACK/ITPACK ELL (ELL-R) índices = dados = 1 * 3 * tamanho linhas = * 6 * Os elementos são armazenados por colunas: * 5 *

14 Algoritmos Estudados Thread per row Cada linha da matriz é atribuída a uma thread Formato CSR: as threads de cada warp acedem a posições de memória não contíguas Formato ELL: as threads de cada warp acedem a posições contíguas de memória (mais eficiente)

15 Algoritmos Estudados Warp per row Cada linha da matriz é atribuída às threads de um warp Format CSR: Todas as threads acedem a elementos da mesma linha logo a posições contíguas de memória Eficiente se as linhas tiverem tamanho suficiente para todas as threads terem trabalho (>=32)

16 Ordenar linhas, porquê? Modelo de execução SIMD => o desempenho é tanto maior quanto, num mesmo warp for: - menor a divergência no acesso à memória - menor a divergência de execução Se num mesmo warp houver threads a processar linhas de diferentes comprimentos, a execução do warp só termina quando terminar o processamento da maior das linhas, isto é, da linha que tiver maior número de valores não zero.

17 Resultados matrizes sintéticas Melhores tempos de execução (em milissegundos) obtidos para matrizes com 10% de não zeros gerados aleatoriamente Matrix order GPU, CSR (thread per row) GPU, ELL-R (thread per row) GPU, CSR row sorted row sorted warp per row float double float double float double float double float double

18 Resultados matrizes sintéticas Precisão simples mais rápido que precisão dupla Thread per row - há sempre ganho com a ordenação O ganho com a ordenação das linhas é maior para o formato ELL-R O algoritmo warp per row é sempre o melhor para estas matrizes

19 Resultados matrizes sintéticas Quando a percentagem de não zeros decresce, Algoritmo thread per row, formato ELL-R, com ordenação das linhas é o melhor quando % de não zeros <= 2% Quando a percentagem de linhas, com tamanho <= 32, cresce Algoritmo thread per row, formato ELL-R, com ordenação das linhas é o melhor quando % linhas com tamanho <=32 é >= 70%

20 Resultados Williams multi-core benchmarking CPU GPU GPU texture Matrix Order CSR ELL (std) ELL-R ELL-R sorted CSR wpr ELL-R ELL-R sorted Economics Accelerator Cantilever Epidemiology Protein Spheres Ship Wind Tunnel Circuit Harbor

21 Resultados Williams multi-core benchmarking Ordenar as linhas pelo seu tamanho tem vantagem para 3 matrizes: Economics, Circuit, Harbor Nos restantes casos, não ordenar as linhas tem melhores resultados A perda de localidade no acesso ao vector é responsável pelo pior desempenho da ordenação O algoritmo warp per row nunca é o melhor A utilização de texturas (memória constante) para armazenar o vector, melhora os tempos de execução mas não inverte os resultados.

22 Resultados Williams multi-core benchmarking Matrix N. of nz % of nz Av.of nz /row Sort. Time (ms) GFlops ELL-R Texture GFlops ELL-R Sorted Texture Average of warp lengths Before Sorting After Sorting Economics % Accelerator % Cantilever % Epidemiology % Protein % Spheres % Ship % Wind Tunnel % Circuit % Harbor %

23 Conclusões Calculando o tamanho médio dos warps antes e depois de ordenar as linhas, verifica-se que quando esse valor decresce para cerca de 66% ou menos do valor inicial, há vantagem em ordenar as linhas. Nestes casos o facto de cada warp ter uma carga de trabalho mais equilibrada compensa a falta de localidade no acesso ao vector.

24 Trabalho futuro Estudar outras matrizes Estudar comportamento dos algoritmos na nova arquitectura da NVIDIA, Fermi. Estudar outra arquitecturas e algoritmos

Documentos relacionados

Impacto da Organização dos Dados em Operações com Matrizes Esparsas na GPU

Impacto da Organização dos Dados em Operações com Matrizes Esparsas na GPU Paula Prata 1,2, Gilberto Melfe 2, Ricardo Pesqueira 2, João Muranho 1,3 1 Instituto de Telecomunicações, 2 Departamento de Informática,