PARALELIZAÇÃO DE APLICAÇÕES NA ARQUITETURA CUDA: UM ESTUDO SOBRE VETORES 1

Transcrição

1 PARALELIZAÇÃO DE APLICAÇÕES NA ARQUITETURA CUDA: UM ESTUDO SOBRE VETORES 1 DUTRA, Evandro Rogério Fruhling 2 ; VARINI, Andre Luis 2 ; CANAL, Ana Paula 2 1 Trabalho de Iniciação Científica _UNIFRA 2 Ciência da Computação do Centro Universitário Franciscano (UNIFRA), Santa Maria, RS, Brasil tissao_dutra@hotmail.com; andre.varini@hotmail.com; apc@unifra.br RESUMO Nos primórdios da computação a programação para GPU - Graphics Processing Unit era considerada muito complexa e por este motivo inviável. A fabricante de placas gráficas NVIDIA foi pioneira no desenvolvimento de uma arquitetura que facilitasse a programação de GPU s para propósitos gerais e não apenas para o processamento de imagens como antigamente, essa arquitetura foi denominada Compute Unified Device Architecture - CUDA. Desde então pesquisas vem sendo feitas sobre a utilização desta arquitetura para aplicações de propósitos gerais. O objetivo do trabalho foi estudar o funcionamento da CUDA e a linguagem de programação utilizada por ela e realizar um estudo de caso. Por meio da compreensão e experimentação prática dos conceitos da arquitetura CUDA, foi implementado o algoritmo paralelo de soma de vetores e observado seu desempenho executando na GPU e na CPU Central Processing Unit. Conclui-se que a GPU permite obter desempenho no processamento deste tipo de operações. Palavras-chave: GPU - Graphics Processing Unit; Algoritmo paralelo; Álgebra Linear. 1. INTRODUÇÃO Nos primórdios da computação a GPU - Graphics Processing Unit, popularmente conhecida como placa de vídeo, era usada como um processador auxiliar apenas para o processamento de imagens, e a programação para ela era considera complexa e inviável, pois exigia que o programador tivesse conhecimento aprofundado em linguagens de baixo nível e sobre o hardware do dispositivo que desejava programar (YANO, 2010). No decorrer dos tempos, houve uma crescente necessidade de poder de processamento, pensando nessa necessidade a fabricante de GPU s NVIDIA foi pioneira no desenvolvimento de uma arquitetura que possibilitasse a programação da GPU para propósitos gerias, e não mais exclusivamente para o processamento de imagens como antigamente. Essa nova arquitetura criada foi denominada CUDA - Compute Unified Device Architecture (PINTO, 2011). Com CUDA é possível programar a GPU para aplicativos que não estejam exclusivamente ligados à processamento de imagens, como por exemplo, aplicativos comerciais onde são realizadas ordenação de valores, cálculo de finanças, dentre outros. O objetivo deste trabalho foi estudar o funcionamento da CUDA, a linguagem de programação utilizada por ela e, a partir disto, realizar um estudo de caso, por meio da implementação do algoritmo paralelo de soma de vetores para execução na GPU e na CPU 1

2 Central Processing Unit. Assim, inicialmente neste artigo, é caracterizada a arquitetura CUDA considerando o gerenciamento de threads, gerência de memórias, kernel e variáveis e funções específicas para execução. Após, é descrita a implementação do algoritmo de soma de vetores neste ambiente, bem como os resultados obtidos e as conclusões do trabalho. 2. ARQUITETURA CUDA CUDA - Compute Unified Device Architecture é uma arquitetura desenvolvida para GPU - Graphics Processing Unit da Nvidia que torna possível seu uso para propósitos gerais. A arquitetura permite que o programador desenvolva algoritmos que executam parte de suas instruções no dispositivo (processador da placa de vídeo), tornando assim a execução paralela. CUDA utiliza uma linguagem de alto nível que é uma extensão da linguagem de programação C padrão, adicionando uma biblioteca especifica com funções que auxiliam o programador. Mesmo assim, ainda é necessário que o programador tenha um conhecimento básico sobre a arquitetura do computador e da GPU, para ter condições de projetar e implementar os algoritmos paralelos que executem na CPU - Central Processing Unit e na GPU (PILLA, 2009), (PINTO,2011) A arquitetura CUDA é constituída por Streaming Multiprocessors (SM) e Scalar Processors (SP), que podem também ser chamados de Multiprocessadores e Núcleos de processamento. Cada multiprocessador é formado por um grupo de núcleos de processamento, em outras palavras, um numero n de núcleos encapsulados formam um multiprocessador. Cada multiprocessador executa de forma independente e paralela em relação aos demais. Os multiprocessadores possuem uma arquitetura chamada de SIMT - Single Instruction, Multiple Thread, onde todos os núcleos de um mesmo grupo executam a mesma instrução de forma paralela. Um exemplo é quando uma função com o qualificador global for chamada, todos os núcleos de um mesmo multiprocessador, irão executar em paralelo as instruções dessa função (IKEDA, 2011), (PILLA, 2009), (PINTO,2011). 2.1 Gerenciamento de Threads CUDA segue o conceito básico de grade (grid) e blocos (blocks). Uma grade apresenta uma estrutura abstrata em forma de matriz, onde cada posição dessa matriz contém um bloco diferente. Cada bloco é formado por um número pré-definido de threads que são também organizadas em forma de matriz. A grade (grid) pode ter sua estrutura abstrata interna em forma de matriz unidimensional ou bidimensional. Os blocos (blocks) apresentam uma estrutura interna em forma de matriz, mas que também podem ser organizadas de forma tridimensional, onde cada posição contém uma thread diferente. As 2

3 dimensões da grade e dos blocos são definidas pelo programador na criação de um novo kernel. Todos os blocos apresentam o mesmo número de threads. A Figura 1 ilustra uma grade formada por 6 blocos, organizada de forma bidimensional com dimensão 2x3 e cada bloco contém 12 threads organizadas internamente com dimensão 3x4. (IKEDA, 2011) Figura 1: Organização da grade e dos blocos de um kernel. (NVIDIA, 2012) Cada bloco é mapeado a um multiprocessador de forma automática pelo dispositivo, o número de blocos é independente do número de multiprocessadores existentes no dispositivo. As threads de cada bloco são organizadas consecutivamente em pequenos grupos denominados warp. Na Figura 2, é ilustrado um modelo de GPU que contém um número n de multiprocessadores (SM) cada um deles contendo 8 núcleos de processamento (SP). Se fossem criados blocos de 32 threads cada um, elas seriam divididas em pequenos grupos de 4 threads, cada grupo seria atribuído a um núcleo diferente. O número de threads por bloco é independente do número de núcleos (SP), mas cada modelo de GPU possui um número máximo suportado (PILLA, 2009), (IKEDA, 2011). Figura 2: Mapeamento das threads para os núcleos de processamento.(pilla, 2009) 2.2 Gerência de Memórias A GPU possui seu próprio conjunto interno de memórias, que é separado das memórias da CPU. Assim, o fluxo de execução de um algoritmo sempre segue os seguintes 3

4 passos: os dados a serem processados pelo dispositivo são criados e inicializados na CPU, depois são copiados da memória principal do computador para a memória global do dispositivo, após o processamento, os dados são novamente copiados para a memória principal do computador. Essas operações podem ser realizadas com as funções cudamemcpy e cudamalloc disponíveis na biblioteca runtime do CUDA (PILLA, 2009). Segundo Pilla (2009), a GPU possui memória dos seguintes tipos: memória local, memória global, memória de constantes e memória de texturas. Cada multiprocessador (SM) possui internamente memórias de alta velocidade com tamanho reduzido em Kbytes, que são dos seguintes tipos: registradores de 32 bits, memória compartilhada, cache de constantes e cache de texturas. A Figura 3 ilustra essa hierarquia de memória. Cada núcleo de processamento (SP) possui seus próprios registradores, que são alocados às threads que estão executando concorrentemente. Todos os núcleos de um mesmo multiprocessador podem acessar a memória compartilhada e efetuar operações de leitura e escrita. As caches de constantes e de texturas de um multiprocessador servem para dar agilidade ao processamento, pois as memórias responsáveis por esses tipos de armazenamentos se encontram na memória global do dispositivo, dessa forma os núcleos conseguem diminuir número de acessos às memórias externas ao multiprocessador. A memória global pode ser acessada por todos os núcleos de todos os multiprocessadores e sofrer operações de leitura e escrita. Existe uma memória local que é dividida e alocada para as threads, cada uma com seu próprio espaço de memória para realizar operações de leitura e escrita (PILLA, 2009). Figura 3: Hierarquia de memórias (PILLA, 2009). 2.3 Kernel O kernel pode ser definido como a parte paralela do código onde as threads são mapeadas aos multiprocessadores do dispositivo (GPU). Funções com o qualificador _global_ são denominadas kernel. Para um novo kernel ser criado, devem ser especificadas as dimensões, da grade (grid) e dos blocos (blocks), com a sintaxe <<<, >>>. A Figura 4 ilustra um exemplo de criação de um novo kernel. 4

5 Na linha 9 do código exemplo da Figura 4, a nova sintaxe é inserida entre o nome da função e a lista de parâmetros. Dois parâmetros devem ser passados: o primeiro diz respeito às dimensões da grade e o segundo diz respeito à dimensão dos blocos. A grade pode ser organizada de forma unidimensional e bidimensional e as threads de um bloco podem ser organizadas de forma tridimensional. No exemplo, a grade foi definida com o valor inteiro 1 e os blocos com o valor 40, ou seja, será criada uma grade contendo apenas 1 bloco e este bloco contem 40 threads, ambos organizados de forma unidimensional. Em outras palavras a dimensão da grade nada mais é que o número de blocos que serão criados, e as dimensões do bloco são o número de threads que cada bloco terá. Como só é possível a passagem de dois valores como parâmetros na sintaxe, para organização da grade e dos blocos em mais de uma dimensão, é necessário o uso de variáveis do tipo dim3 (YANO, 2010), (ROCHA, FILHO, 2010), (RIBEIRO, 2011). Figura 4: Criação de um novo kernel 2.4 Variáveis dim3, Variáveis Built-in, qualificadores de função e de variáveis Varáveis dim 3 são usadas para definição de dimensões, onde dim3 é uma estrutura já definida na linguagem CUDA, que apresenta o seguinte modelo: typedef struct { int x, y, z } dim3; onde, x representa o número de colunas, y o número de linhas e z o número de dimensões. Variáveis do tipo dim3 são comumente utilizadas para a definição de um novo kernel com mais de uma dimensão, e podem ser declaradas da seguinte forma: dim3 dimensaobloco (4,2,1); Na declaração da variável dimensaobloco são passados parâmetros atribuídos respectivamente para x, y e z. Caso não for especificado os valores de x, y e z, eles ficam com os valores padrão (1,1,1) (RIBEIRO, 2011), (NVIDIA, 2012), (IKEDA, 2011). Variáveis Built-in são variáveis pré-definidas pela linguagem e não podem ter seus valores modificados, são válidas somente em funções que executam na GPU. Elas permitem obter as dimensões da grade e dos blocos e também o índice das threads e dos blocos. Segundo NVIDIA (2012), as variáveis desse tipo são: griddim (variável do tipo 5

6 dim3 que contém as dimensões da grade); blockdim (variável do tipo dim3 que contém as dimensões do bloco); blockidx (variável do tipo uint3 que contém o índice do bloco na grade); threadidx (variável do tipo uint3 que contém o índice da thread no bloco); warpsize (variável do tipo int que contém o número de threads do warp). Conforme a estrutura do kernel ilustrado na Figura 1, a dimensão da grade é 2 linhas por 3 colunas então griddim.x = 3, griddim.y = 2. Todos os blocos apresentam as dimensões de 3 linhas por 4 colunas, então blockdim.x = 4, blockdim.y = 3. Em muitos casos é necessário para a resolução de um problema a obtenção do índice de determinado bloco ou thread, por exemplo a thread (3, 1) da grade (1, 1), os índices da thread seriam threadidx.x = 3, threadidx.y = 1, já os índices desse bloco seriam, blockid.x = 1, blockid.y = 1 (NVIDIA, 2012). Quando uma função é declarada, o programador deve especificar quem poderá chamar essa função e onde ela irá executar suas instruções. Essas permissões são denominadas de qualificadores do tipo de função. Existem três tipos de qualificadores do tipo de função: global, host e device : global : a função é chamada pelo host (CPU) mas suas instruções são executadas no device (GPU). Alguns pontos importantes são:o retorno deve ser sempre do tipo void; não suporta numero de argumentos variável; não é permitida a declaração de variáveis estáticas; não suporta recursão; quando uma função com esse qualificador for chamada, deve ser criado um novo kernel especificando as dimensões da grade e as dimensões de cada bloco. host : a função só pode ser chamada pelo host. Uma função com esse tipo de qualificador se torna uma função comum da linguagem C e suas instruções obviamente são executadas no host, e não pode ser chamada por funções que tem permissão device. device : a função é chamada e executada somente pelo device. Funções com qualificador host não podem fazer chamadas a ela. Alguns pontos importantes são: podem retornar valores, mas o endereço da função não pode ser obtido; não suporta recursão; não pode conter inicialização de variáveis estáticas em sua implementação; não suporta número variável de argumentos. Todas as funções declaradas no programa devem conter o seguinte protótipo: <tipo_de_permissão><tipo_do_retorno><nome_da_função>(lista_de_parame tros); caso o tipo de permissão não for especificado na função o compilador irá assumir que a permissão é do tipo host (IKEDA, 2011), (NVIDIA, 2012). Qualificadores do tipo de variáveis servem para especificar em qual das memórias do dispositivo a variável será alocada. Existem três qualificadores de tipos de variáveis, device, constant e shared. 6

7 device : a variável reside na memória global do dispositivo, tem o tempo de vida da aplicação e pode ser acessada por todas as threads de uma grade e pela CPU. constant : a variável reside na memória constante do dispositivo, seu tempo de vida e permissões de acesso são iguais aos do device. shared : a variável reside na memória compartilhada, pode ser acessada apenas pelas threads de um mesmo bloco, e o seu tempo de vida é o mesmo do bloco. Variáveis que não recebem esse qualificador são alocadas na memória local do dispositivo (IKEDA, 2011), (NVIDIA, 2012). 3. METODOLOGIA O presente trabalho foi desenvolvido por meio de uma revisão bibliográfica sobre as placas gráficas GPU Graphics Processing Unit, da NVIDIA e a arquitetura CUDA. Para o desenvolvimento do algoritmo, foi realizada revisão bibliográfica sobre as operações de álgebra linear com matrizes e vetores. Para o desenvolvimento foi instalado SDK Software Development Kit CUDA para Windows 64 bits, juntamente com a linguagem de programação C. A implementação foi desenvolvida e a execução paralela do algoritmo foi realizada em um computador com processador AMD Phenom(tm) II X Ghz, 2GB de memória RAM, e com uma placa gráfica Nvidia GeForce 9500 GT que possui 32 núcleos de processamento divididos em 2 multiprocessadores e 512 MB de memória. Para observar o desempenho, foram utilizadas medidas de tempo de execução do algoritmo. Como estudo de caso, apenas o algoritmo de soma de vetores é descrito, uma vez que os demais algoritmos paralelos de operações de álgebra linear encontram-se em fase de implementação. 4. RESULTADOS E DISCUSSÕES A soma de dois vetores é uma operação de álgebra linear. Esta operação requer que os dois vetores tenham o mesmo número de posições porque todas as posições do primeiro vetor serão somadas com as posições correspondentes do segundo, resultando em um terceiro vetor, do mesmo tamanho. Por exemplo, dado dois vetores e, a soma deles é feita da seguinte forma,, como pode ser observado o terceiro vetor irá conter o resultado da soma das posições correspondentes de e. A soma de dois vetores é comutativa, ou seja,. Foi implementado o algoritmo que efetua a soma de dois vetores de forma paralela, com o objetivo de validar o estudo realizado sobre CUDA e GPU. A Figura 5 ilustra parte da implementação do algoritmo. É necessária a criação de vários ponteiros, uns apontando 7

8 para a memória da CPU e outros para memória da GPU. A convenção da NVIDIA foi utilizada para identificar os tipos de ponteiros: antecedendo o nome do ponteiro colocam-se as palavras host para ponteiros na memória da CPU e device para ponteiros na memória da GPU, favorecendo a legibilidade do código. Isto pode ser observado na linhas 11 e 17. Figura 5: Implementação do algoritmo soma de vetores O algoritmo segue os seguintes passos: primeiramente é alocado espaço para os vetores na memória da CPU (host) (linhas 11, 12, 13); é alocado espaço no dispositivo para os três vetores e aqueles que serão somados são copiados da memória host para a memória do device (linhas 17 a 26); são definidos os parâmetros para a criação de um novo kernel com um cálculo proposto pela NVIDIA para criar um número de blocos, de forma a melhorar a distribuição de threads (linhas 28, 29); o kernel é criado e o processamento inicia 8

9 (linha 33); após o termino do processamento apenas o resultado da soma é copiado da memória do device para a memória do host (linha 40). Nas linhas 1 a 6 a função que realiza a soma dos vetores de forma paralela, obtém o identificador único de cada thread. Cada thread realiza a soma de duas posições equivalentes, por exemplo, se o identificador de thread for igual a 0, ela irá somar a posição 0 dos vetores, e assim sucessivamente para cada uma das n threads criadas, e como podem ser criadas mais threads do que o número total de posições dos vetores, existe um teste que evita a soma de posições inexistentes (linha 4). Para testar o desempenho do algoritmo desenvolvido, foi medido o tempo de execução do kernel soma_vetores, o ponto paralelo do código. Conforme a Figura 5, os tempos inicial e final são capturados, nas linhas 35 e 36. Os resultados obtidos foram satisfatórios para a operação da soma de vetores. Para vetores com , , e posições, o tempo no processamento de todos eles foi igual a zero milissegundos, pois foi medido somente o tempo de processamento da soma na GPU. Primeiramente, este tempo foi questionado, pois se esperava valores maiores, então para testar a validade do resultado, foram gerados vetores de tamanho , e e as medidas de tempo de execução realizadas a partir da inicialização dos dados. Os resultados obtidos neste teste estão no gráfico da Figura 6. Como a inicialização dos vetores se deu na CPU, isto influenciou no tempo de execução, fazendo com que a GPU levasse um pouco mais de tempo de processamento comparada à CPU. Conclui-se que, para problemas mais simples como a soma de vetores, a placa gráfica permite também um processamento rápido. Figura 6: Tempo de execução do algoritmo soma de vetores 5. CONCLUSÃO A partir do trabalho desenvolvido, considerou-se que os resultados foram satisfatórios, pois a GPU efetua o processamento das operações de forma rápida, 9

10 aproximando-se dos valores da CPU. Um dos grandes desafios encontrados na programação para GPU é a paralelização dos algoritmos que consiste em encontrar estratégias de implementá-los de forma que todos os núcleos de processamento executem a mesma instrução, sobre dados diferentes, já que os multiprocessadores executam suas instruções em SIMT, e tudo isso, visando a melhor utilização dos recursos e obtenção de desempenho. Pretende-se continuar o estudo da arquitetura CUDA, implementando em paralelo as demais operações de álgebra linear. REFERÊNCIAS IKEDA, Patricia Akemi. Um estudo do uso eficiente de programas em placas gráficas Dissertação. Instituto de Matemática e Estatística, Universidade de São Paulo, São Paulo NVIDIA CUDA C Programming Guide version 4.2. Disponível em ide.pdf. Acessado em Abril de PILLA, Laércio L. Análise de Desempenho da Arquitetura CUDA Utilizando os NAS Parallel Trabalho de Conclusão (Graduação em Ciência da Computação). Instituto de Informática, Universidade Federal do Rio Grande do Sul (UFRGS), Porto Alegre PINTO, Vinícius G. Ambientes de Programação Paralela Híbrida Dissertação. Programa de Pós-Graduação em Computação, Universidade Federal do Rio Grande do Sul (UFRGS), Porto Alegre, RIBEIRO, Ítalo Mendes da Silva. Paralelização em GPU da Segmentação Vascular com Extração de Centerlines por Height Ridges Dissertação (Programa de Pós-graduação em Sistemas e Computação). Departamento de Informática e Matemática Aplicada, Universidade Federal do Rio Grande do Norte (UFRN), Natal ROCHA, Kassiane de Almeida Pretti, FILHO, Luciano José Varejão Fassarella. Introdução ao CUDA utilizando métodos numéricos Trabalho de Conclusão de Curso. Centro Universitário Vila Velha, Vila Velha YANO, Luís Gustavo Abe. Avaliação e comparação de desempenho utilizando tecnologia CUDA Trabalho de Conclusão (Graduação em Ciência da Computação). Instituto de Biociências, Letras e Ciências Exatas, Universidade Estadual Paulista Júlio de Mesquita Filho, São José do Rio Preto - SP