Workshop de Informática Biomédica (WIBm)

Transcrição

1 42 UTILIZAÇÃO DE UNIDADES DE PROCESSAMENTO GRÁFICO EM SIMULAÇÕES DO PROBLEMA DE PONTOS ALEATÓRIOS Cristiano Roberto Fabri Granzotti 1, Alexandre Souto Martinez 1 1 Laboratório de Simulação em Sistemas Complexos, Departamento de Física - FFCLRP, USP Ribeirão Preto, Brasil Resumo: Este estudo apresenta a utilização de unidade gráfica de processamento (GPUs) da NVIDIA em modelos de física estatística e física biológica. Simulações nestas áreas são baseadas em técnicas de Monte Carlo, que podem diminuir o tempo de processamento em algumas ordens de grandeza, ao serem implementadas na GPU. O ganho se deve ao massivo paralelismo do processamento da unidade gráfica. O modelo considerado é uma estatística de distâncias entre N pontos do problema de pontos aleatórios, que descreve uma distribuição de distâncias de um ponto aos vizinhos mais próximos. Palavras-chave: Cuda, Monte Carlo, Epidemiologia. Abstract: This study presents the use of NVIDIA graphic processing unit (GPUs) in statistical physics and biological physics models. In these subjects, simulations are based on Monte Carlo techniques, which can reduce the processing time by some orders of magnitude, when implemented in the GPU. The gain is due to the massively parallel processing of graphic unit. The model considered is the statistic distance among N points in the random points problem, which describes a distribution of distances from a point to the closest neighbours. Keywords: Cuda, Monte Carlo, Epidemiology. Introdução A maioria dos algoritmos de simulação é escrito para processar a informação de maneira serial, ou seja, apenas uma instrução é processada a cada intervalo de tempo, a grosso modo o intervalo é determinado pelo clock do processador. Em contrapartida, os algoritmos paralelos utilizam múltiplos recursos computacionais para realizar mais de uma instrução simultaneamente. Recentemente, a NVIDIA 1 introduziu o CUDA, uma arquitetura geral de processamento, com um novo modelo de programação em paralelo. O CUDA é um ambiente de software que permite desenvolver de maneira ágil códigos em C, C++, Java, Fortran, Direct Compute e OpenCL. Esta plataforma de desenvolvimento tem sido amplamente utilizada nos mais diversos campos de pesquisa, tais como modelos de redes 2, astronomia 3, processamento de imagens 4, criptografia 5, etc. As redes bidimensionais são amplamente aplicadas no estudo de epidemiologia e teoria da informação, em que cada nó, ou sítio, representa um indivíduo. Em geral, essas redes são altamente organizadas, ou seja, a distância entre um indivíduo e seus vizinhos mais próximos apresenta sempre o valores bem definidos. Em contrapartida, há a situação em que as coordenados dos indivíduos são distribuídas de maneira aleatória, seguindo a função densidade de probabilidade (pdf) uniforme nas arestas de um hipercubo. Este é o problema de pontos aleatórios 6, que consiste em uma abordagem para a obtenção de um meio desordenado. Neste caso, a distância entre um indivíduo e seus vizinhos mais próximos não é definida de maneira trivial. Recentemente, mostramos que a pdf que descreve a distribuição de distâncias entre vizinhos é a distribuição de Stacy 7.

2 43 A validação do resultado analítico é obtida por meio de simulações numéricas de Monte Carlo. A primeira versão do código, que simula o problema da estatística de distâncias, é serial. Ela é executada na CPU e torna-se bastante lenta, principalmente quando o sistema é composto por muitos sítios. Com o objetivo de obter simulações mais rápidas e com maior quantidade de pontos, o CUDA C foi escolhido para codificar a segunda versão do algoritmo da estatística de distâncias. As principais vantagens desta escolha são o baixo custo da unidade gráfica e o fato da paralelização na GPU permitir uma migração mais fácil do código para clusters de CPUs, caso seja necessário. Métodos O CUDA C permite estender a linguagem C ao definir procedimentos que são executados em paralelo na GPU. Estes procedimentos são chamados de kernels. A diferença do procedimento na GPU é que o código pode ser executado simultaneamente por várias threads. A paralelização do código é possível somente se o problema permitir e esta deve seguir a hierarquia de execução padrão definida pela NVIDIA: Multiprocessadores São unidades físicas de processamento que agrupam vários blocos. Blocos São também conhecidos como cores e estão fisicamente presentes no interior de cada multiprocessador. Threads É a capacidade de um bloco executar instruções correspondentes a várias linhas de execução, que podem ser executadas paralelamente ou serialmente. O principal motivo do ganho de desempenho é que as GPUs são dedicadas ao processamento de dados, não tendo a função de guardar informações em memórias cache extensas nem tratar de controle de fluxo altamente complexo. Desta forma, na GPU há uma área menor destinada à memória cache do que na CPU, assim como ilustrado na Figura 1. Figura 1: A CPU dedica parte considerável dos recursos para controle de fluxo e para guardar dados em memórias cache. Essa mesma característica não está presente na GPU, a qual diminui estas funções visando ganho no tempo de processamento. Entretanto essa diminuição de controle de fluxo exige mais recursos do programador, pois ele tem que determinar qual thread irá executar determinada instrução. Assim como na CPU, há diversos tipos de memória na GPU, que são utilizadas para diferentes fins:

3 44 Registradores É o tipo de memória mais rápida na GPU. Usualmente, as variáveis declaradas dentro de um kernel residem neste espaço de memória. Memória compartilhada Também conhecida como shared memory, ela pode ser tão rápida quanto os registradores. Está localizada em cada bloco, sendo acessível a- penas às threads deste bloco. O tempo de vida desta memória é o mesmo do bloco. Memória global É o análogo da memória RAM da CPU. Ela é duas ordens de grandeza mais lenta que os registradores. A transferência de dados da CPU para GPU e vice-versa ocorre por intermédio desta memória. Memória de Constantes É um tipo de memória apenas de leitura para a GPU, sendo otimizada para o caso em que todas as threads acessam um mesmo endereçamento de memória ao mesmo tempo. Completando as características da GPU, há o compute capability, que está relacionado com características do hardware e do software. Esta grandeza é representada por dois números de revisão (tal como 1.3). O primeiro deles é relativo à arquitetura dos blocos e o segundo relacionado a novas funcionalidades do software, tal como uma nova biblioteca. A abordagem serial para codificar a estatística de distâncias está descrita passo a passo a seguir, sendo representada no fluxograma da Figura Gerar as N coordenadas dos pontos em cada aresta do hipercubo d-dimensional seguindo a pdf uniforme. São necessários N d espaços de memória para armazenar as coordenadas; 2. Calcular a distância entre todos os pares de pontos. São necessários N N espaços de memória e cada linha desta matriz guarda a distância de um dado ponto a todos os demais; 3. Encontrar os µ primeiros vizinhos de cada ponto e armazenar as distâncias a cada um deles em uma tabela que consome N µ espaços de memória; 4. Obter o histograma das µ-ésimas primeiras ordens de vizinhança. São necessários µ nbin posições de memória, em que nbin é o número de classes do histograma. 5. Figura 2: Fluxograma da codificação serial da simulação da estatística de distância na CPU de acordo com os passos listados acima. Esta mesma abordagem não pode ser implementada para GPUs. O fator limitante neste caso é a memória global que, em geral, é limitada a 1 Gb. Todavia, é possível contornar este problema realizando uma divisão dos cálculos.

4 45 Em geral, as dimensões utilizadas são baixas (espaço tridimensional), enquanto o número de pontos é grande. Desta maneira, guardar toda a matriz de distâncias é inviável. A forma de contornar o problema é guardar toda a tabela de coordenadas, pois ela contém informação global para o cálculo das distâncias e a tabela do histograma, que ocupa pouco espaço. Sendo assim, sobra margem para aumentar ou diminuir a matriz de distâncias e tabela de primeiros vizinhos. Se a estatística de distância for processada para os N pontos, são necessárias N 2 +Nµ posições de memória para armazenar a matriz de distâncias e a tabela de primeiros vizinhos. Contudo, só é possível armazenar n distâncias para serem processadas em paralelo, sendo n determinado a partir da seguinte regra: nn+µn=memória livre. O próximo passo é gerar toda a tabela de coordenadas, o que é feito em paralelo (concorrentemente) na GPU pelo algoritmo CURAND, disponibilizado pela NVIDIA. Em um caso hipotético em que N=1000 e n=100, após a geração das coordenadas a CPU chama na GPU o procedimento que calcula as distâncias, informando a este para calcular em paralelo a distância entre cada um dos n pontos e seus vizinhos. No próximo passo, a CPU chama na GPU a função que encontra as µ-ésimas primeiras distâncias dos n pontos. Essa função encontra os µ primeiras distâncias para cada um dos 100 pontos, o que ocorre em paralelo para cada ponto. O último passo é o calculo do histograma. Ele consiste em verificar a qual classe o valor de distância pertence. Essa verificação ocorre para todas as classes ao mesmo tempo e obviamente apenas uma retornará como aquela à qual a distância pertence, a essa classe é somada uma ocorrência. Dessa maneira, é finalizado o cálculo para os primeiros n pontos. Agora, são realizados os mesmos passos para os pontos de 101 à 200, de 201 à 300,..., de 901 à Note que a CPU faz N/n = frac chamadas na GPU às funções: cálculo de distâncias, primeiras distâncias e histograma. O código torna-se, portanto, serial paralelo, assim como ilustrado no fluxograma da Figura 3. Figura 3: Implementação paralela da estatística de distâncias.

5 46 Resultados A função densidade de probabilidade que descreve a estatística de distância foi obtida de duas maneiras distintas, com argumentação geométrica e com uma argumentação baseada na utilização de funções acumuladas, sendo dada pela Equação 1. k kd / 2 dk 1 d / 2 d 1 dn r N r f ( r) exp (1) dk k d ( k) L [ (1 d / 2)] L (1 d / 2) em que: r é a distância entre os sítios; N é o numero de pontos do meio; d é a dimensionalidade do sistema; k é a ordem de vizinhança; L é comprimento da aresta do hipercubo. Os resultados por simulação foram validados por meio da Equação 1 e estão presentes no gráfico da Figura 4. Figura 4: Distribuição de distâncias do primeiro ao quarto vizinho em um ambiente unidimensional. Foram considerados 512 pontos, 1000 realizações e condições abertas de contorno. As curvas cheias representam a Equação 1. Figura 5: Tempo de processamento em função do número de pontos. O aumento do ganho deve-se ao fato de que a complexidade computacional foi reduzida na GPU. Esta comparação foi realizada entre um processador AMD Phenon X6 3.3 GHz e uma placa Geforce GTX 580.

6 47 O ganho de desempenho obtido com a utilização da GPU está ilustrado no gráfico da Figura 5. Este ganho de desempenho é de uma ordem de grandeza em sistemas com tamanho acima de 4096 pontos. Em sistemas muito pequenos, tal como N=128 pontos, a CPU torna-se mais rápida que a GPU, pois o processo de configuração da GPU e transferência de informação requer tempo. Discussão Em geral, na literatura 2,3, encontram-se casos onde o ganho de desempenho é de duas ordens de grandeza, enquanto que no algoritmo da estatística de distâncias ele é de apenas uma. Esta discrepância no desempenho ocorre devido à natureza do problema físico envolvido e às limitações físicas da GPU. Grande parte dos códigos de simulação de Monte Carlo utiliza a memória compartilhada para armazenar parte dos dados durante o processamento (nas arquiteturas mais modernas, há 48 kilobytes desta memória por bloco), pois esta memória é duas ordens de grandeza mais veloz que a memória global, de forma que tanto a leitura quanto a escrita são processos rápidos. No problema da estatística de distâncias, não há como lançar mão deste artifício devido à sua natureza de longo alcance, ou seja, no caso da matriz de distância os pontos mais próximo do ponto 1 podem ser qualquer ponto, de forma que não há meio de carregar partes das distâncias para realizar a busca do ponto mais próximo, por exemplo. Conclusão A plataforma CUDA C mostra-se como uma excelente aplicação para o desenvolvimento de aplicativos baseados em simulação de Monte Carlo, principalmente naquelas onde há interações de curto alcance, tal como no modelo de Ising. No algoritmo da estatística de distâncias, não foi possível lançar mão do uso da memória compartilhada. Mesmo assim, foi possível obter ganhos de desempenho de uma ordem de grandeza em tempo de execução. Referências [1] NVIDIA CUDA C Programming Guide. v Disponível em Acessado em 10 set [2] Tal Levy, Guy Cohen, Eran Rabani. Simulating Lattice Spin Models on Graphics Processing Units. arxiv: [3] Bharath Pattabiraman, Stefan Umbreit, Wei-keng Liao, Alok Choudhary, Vassiliki Kalogera, Gokhan Memik. A Parallel Monte Carlo Code for Simulating Collisional N body Systems. arxiv: v1. [4] Dalong Liu, Emad S. Ebbini. Real-Time 2-D Temperature Imaging Using Ultrasound. IEEE Transactions on Biomedical Engineering. v. 53. n. 1. p [5] Anderson Gonçalves Marco, Alexandre Souto Martinez, Odemir Martinez Bruno. Fast, Parallel And Secure Cryptography Algorithm Using Lorenz's Attractor. International Journal of Modern Physics C. v. 21. n. 3. p [6] Terçariol CAS, Martinez AS. An Efficient Algorithm to Generate Random Uncorrelated Euclidean Distances: The Random Link Model. Brazilian Journal of Physics. v. 36. p

7 48 [7] Gavin E. Crooks. The Amoroso Distribution. arxiv: v1. Contato Cristiano Roberto Fabri Granzotti Graduando em Física Médica no Departamento de Física da FFCLRP da USP de Ribeirão Preto. Laboratório de Modelagem em Sistemas Complexos, sala 408, bloco B5. Tel: Alexandre Souto Martinez Professor Associado ao Departamento de Física da FFCLRP da USP de Ribeirão Preto. Laboratório de Modelagem em Sistemas Complexos, sala 408, bloco B5. Tel: Sala