Programação paralela em SMPs com OpenMP e POSIX Threads: um estudo comparativo

Transcrição

1 Programação paralela em SMPs com OpenMP e POSIX Threads: um estudo comparativo Julio Cesar Torelli, Odemir Martinez Bruno 1 Resumo-- Atualmente os métodos de programação paralela mais comuns em arquiteturas MIMD com memória compartilhada são aquele com (i) threading explícito e aquele baseado em (ii) diretivas de compilação. Estes métodos têm como principais representantes as ferramentas POSIX Threads e OpenMP, respectivamente. O objetivo deste trabalho é comparar o desempenho destas duas ferramentas em um SMP. Para isso, utilizamo-las para paralelizar um algoritmo de transformada de distância euclidiana, que é um algoritmo utilizado em processamento de imagens. Os resultados mostram um desempenho superior (menor tempo de execução) para a ferramenta POSIX Threads. Palavras chave-- memória compartilhada, OpenMP, POSIX Threads, programação paralela, SMP. I. INTRODUÇÃO ULTIPROCESSADOR SIMÉTRICO, ou SMP (do M inglês Symmetric MultiProcessor ), é uma arquitetura paralela MIMD com memória compartilhada [1], [2]. SMPs são construídos com processadores de propósito geral que, na maioria das vezes, são conectados à memória por meio de um barramento de tempo compartilhado [2] o uso de outros tipos de circuito de interconexão, como redes crossbar [7] e redes multiestágio [8], [9], é menos comum, por causa do custo mais alto. SMPs são arquiteturas UMA (Uniform Memory Access) [2]-[4], isto quer dizer que todos os processadores têm acesso a todas as posições de memória e que o tempo de acesso é o mesmo para todas as posições. Processamento paralelo em SMPs é feito através de programas (programas paralelos) com múltiplas threads (ou múltiplos processos), que executam simultaneamente, porém independentemente, e cooperam para resolver um problema através da memória. O desenvolvimento de programas paralelos requer, portanto, ferramentas que possibilitem a criação das threads, e que implementem os mecanismos usados na sincronização destas threads. As ferramentas de programação paralela mais comuns em SMPs atualmente são aquelas com (i) threading explícito e as (ii) baseadas em diretivas de compilação [5]: Os autores são gratos ao CNPq pelo apoio financeiro, Julio Cesar Torelli (processo /2004-0) e Odemir Martinez Bruno (processo /01-5). - Julio Cesar Tomelli ( julio@icmc.usp.br) - Odemir Martinez Bruno ( bruno@icmc.usp.br) Instituto de Ciências Matemáticas e de Computação Universidade de São Paulo, São Carlos (SP), Brasil A. Programação paralela com threading explícito O programador cria explicitamente múltiplas threads dentro de um mesmo processo e divide, também explicitamente, o trabalho (tarefas) a ser realizado pelo programa entre estas threads. Assim como a criação, a sincronização das threads é de total responsabilidade do programador a sincronização é em geral realizada através de mecanismos como mutexes, semáforos e variáveis de condição [6]. A ferramenta de programação paralela com threading explícito mais utilizada atualmente é a POSIX Threads na verdade POSIX Threads é apenas uma especificação de uma biblioteca; implementações desta especificação são, em geral, realizadas pelos fabricantes de sistemas operacionais. B. Programação paralela baseada em diretivas O programador utiliza diretivas de compilação, inserido-as no código da aplicação seqüencial, para indicar as partes deste código que devem ser paralelizadas. Com base nestas diretivas o compilador gera o código paralelo; portanto, é necessário um compilador especial, ou seja, um compilador capaz de entender as diretivas e gerar o código multi-threaded (com múltiplas threads). A distribuição de trabalho entre as threads pode ser feita pelo compilador (é o caso, por exemplo, da diretiva parallel for do OpenMP, que é apresentada na Seção 3 deste texto) e/ou pelo programador (é o caso, por exemplo, da diretiva parallel do OpenMP, que também é apresentada na Seção 3). Entretanto, a criação das threads é responsabilidade do compilador. A sincronização é, em partes, feita pelo compilador. A ferramenta de programação paralela baseada em diretivas de compilação de maior sucesso na atualidade é a OpenMP da mesma forma que POSIX Threads, OpenMP é apenas uma especificação; implementações desta especificação são realizadas por fabricantes de compiladores e sistemas operacionais. O objetivo deste trabalho é comparar o desempenho das ferramentas POSIX Threads e OpenMP. Para isso, desenvolvemos uma versão paralela do algoritmo de transformada da distância euclidiana de Saito e Toriwaki [16] e implementamos este algoritmo em C com POSIX Threads e OpenMP. Os programas paralelos foram implementados em um SMP Sun Fire 3800 com sistema operacional Solaris 5.8 e quatro processadores UltraSPARC III. Tais programas foram executados com imagens binárias de diferentes tamanhos. O restante deste artigo está organizado da seguinte forma. Na seção 2 é feita uma pequena introdução à 486

2 ferramenta/especificação POSIX Threads. Na seção 3 é feita uma pequena introdução à ferramenta/especificação OpenMP. Na seção 4 é apresentado o algoritmo de transformada de distância euclidiana seqüencial de Saito e Toriwaki. Ainda na seção 4 descrevemos como nós paralelizamos este algoritmo. Finalmente, na seção 5, relatamos os resultados obtidos com os programas POSIX Threads e OpenMP. II. POSIX THREADS POSIX Threads, ou simplesmente Pthreads, é um padrão, criado pelo IEEE (IEEE Std c) [13] em 1995, que define uma API (application program interface) para o desenvolvimento de aplicações multi-threaded. Desde então, diversos fabricantes têm incluído suporte a este padrão, entre eles Sun, HP, DEC e SGI. A API é formada por aproximadamente 60 funções que possibilitam a criação, suspensão e término de threads, bem como a sincronização e o controle do escalonamento destas threads. Atualmente ela pode ser utilizada apenas com as linguagens C e C+ [10]. A. Modelo de programação O programa inicia com uma única thread, usualmente chamada thread principal ou mestre (esta é a thread que executa a função main do programa C). Outras threads são então criadas explicitamente pelo programador através da função pthread_create, que tem como parâmetro o nome de uma função para a thread executar. Um programa paralelo desenvolvido com Pthreads consiste, portanto, de um conjunto de threads que executam o código dentro de uma ou mais funções definidas pelo usuário. Cada thread executa independentemente das demais até o término da função que lhe foi designada ou até a realização de uma chamada à função pthread_exit, quando então é destruída. III. OPENMP O OpenMP é um padrão criado e mantido por uma organização independente, openmp.org 2, que especifica um conjunto de diretivas de compilação, funções e variáveis de ambiente para a programação paralela em arquiteturas com memória compartilhada nas linguagens Fortran 77, Fortran 90, C e C++ [11]. A primeira versão deste padrão, OpenMP 1.0, foi publicada em Em 2000, para Fortran, e em 2002, para C/C++, foi publicada a versão 2.0, que é a versão atualmente utilizada. O OpenMP é suportado por diversos fabricantes, tais como Sun, SGI e KAI. A. Modelo de programação A paralelização é realizada com múltiplas threads (dentro de um mesmo processo) em um modelo fork-join de execução (Fig. 1). O programa inicia com uma única thread, chamada thread mestre, que executa sozinha até encontrar uma região paralela 3. Neste ponto do programa é criado (fork) um grupo de threads. Então, todas as threads do grupo, inclusive a thread mestre, executam o código dentro desta região. Quando Parte do código que deve ser executada por múltiplas threads. as threads completam a execução do código na região paralela elas se sincronizam (join) e, com exceção da thread mestre, terminam. A execução então continua seqüencialmente com a thread mestre até que ela encontre uma nova região paralela ou até que o programa termine [12]. Fig. 1. Modelo de programação OpenMP. Na figura, foram definidas duas regiões paralelas, A e B, que são executadas por cinco e três threads, respectivamente. Diferente de Pthreads, o código responsável pela criação das threads é gerado pelo compilador; o programador apenas define, através de diretivas, onde isto deve acontecer isto é, define as regiões paralelas. B. Diretivas Uma diretiva consiste de uma linha de código com significado especial para o compilador. As diretivas OpenMP, nas linguagens C e C++, são identificadas pela sentinela #pragma omp. O OpenMP especifica diretivas para a paralelização de dois tipos: (i) laços e (ii) regiões [11]. 1) Paralelização de laços: a paralelização de laços for é feita de uma forma bastante simples através da diretiva parallel for, conforme ilustrado em Fig. 2: 01. #pragma omp parallel for 02. { 03. for(i = 1; i <= n; i++) 04. a[i] = a[i] * b[i - 1]; 05. } Fig. 2. Paralelização de laços A diretiva #pragma omp parallel for informa ao compilador que devem ser criadas t threads para executar as i iterações do laço dentro dela (o número de threads pode ser definido pelo programador através da função omp_set_num_threads ou através da variável de ambiente OMP_NUM_THREADS). Em geral, o comportamento desta diretiva será o seguinte: cada thread executará aproximadamente i/t iterações. No código anterior, por exemplo, se i = 101 e t = 2, a primeira thread executará as iterações de i = 1,..., 51 e a segunda as iterações de i = 52,..., 101. Note que a divisão das iterações do laço entre as threads é feita automaticamente pelo compilador. 2) Paralelização de regiões: diferente da parallel for, a diretiva parallel pode ser utilizada para paralelizar 487

3 qualquer parte do código e não apenas laços. Este tipo de paralelismo é muito parecido com aquele obtido com Pthreads, mas a sua programação é facilitada pelo uso de diretivas, conforme ilustrado em Fig. 3:. 20. omp_set_num_threads(3); #pragma omp parallel private(t_rank) 23. { 24. t_rank = omp_get_thread_num(); if (t_rank == 0) 27. executa_funcao_a() 28. elseif (t_rank == 1) 29. executa_funcao_b() 30. else 31. executa_funcao_c() 32. } Fig. 3. Paralelização de regiões No código em Fig. 3 foi utilizada a função omp_set_num_threads (linha 20) para informar ao compilador que a região paralela subseqüente (linha 24 a 31) deve ser executada por 3 threads. Note que cada thread em uma região paralela é identificado por um rank e que em uma região com t threads os ranks vão de 0 a t 1 (para descobrir o rank de uma thread utiliza-se a função omp_get_thread_num). Neste código, utilizou-se a estrutura de decisão if e o rank das threads para se delegar a execução de uma função diferente para cada thread. IV. ESTUDO DE CASO: TRANSFORMADA DE DISTÂNCIA EUCLIDIANA A transformada da distância euclidiana (TDE) [14]-[16] é a operação que computa o mapa de distâncias euclidianas de uma imagem binária 4. Em outras palavras: dada uma imagem binária I contendo um objeto O (conjunto de pontos cujo valor é 1), a TDE gera uma imagem M, que é chamada mapa de distâncias euclidianas, cujo valor em cada ponto p é a menor distância euclidiana entre p e O, o que corresponde à distância euclidiana D e entre p = (x, y) e o ponto mais próximo q = (i, j) O: onde, M(p) = min {D e (p, q) I(q) = 1} (1) 2 D e (p,q) = (x - i) + (y - j) (2) A TDE é utilizada em diversas aplicações de diversas áreas, tais como robótica para o planejamento de trajetória de robôs [17], processamento e análise de imagens em operações como dilatação e erosão [18], esqueletização [19], diagramas de voronoi [15], segmentação watershed [20], cálculo de dimensão fractal [21], [22] entre outras. Em Fig. 4 Imagem onde um ponto pode armazenar o valor 0 ou o valor 1. Os pontos cujo valor é 1 representam o(s) objeto(s) nesta imagem; os pontos cujo valor é 0 formam o fundo (background) da imagem. 2 4 (b) é ilustrado o mapa de distâncias euclidianas obtido a partir da imagem binária mostrada em Fig. 4 (a). (a) Fig. 4. Mapa de distâncias euclidianas. (a) Imagem binária I; (b) mapa de distâncias euclidianas de I. A. Algoritmos A forma mais simples de se obter o mapa de distâncias de uma imagem binária é utilizando o algoritmo que chamaremos aqui de força-bruta, que funciona da seguinte forma: para cada ponto p com valor 0 na imagem I, calcula-se a sua distância euclidiana em relação a todos os pontos com valor 1. O valor do mapa, em p, será a menor entre todas as distâncias calculadas. Para uma imagem bidimensional n n com z pontos 0 e, conseqüentemente, n2 z pontos 1, o número total de comparações, com o algoritmo força-bruta, será z * (n2 z). Se metade dos pontos da imagem tiver valor 0, z = n2 / 2, o número total de comparações será n2 / 2 * (n2 (n2 / 2) ) = n4 / 4. Assim, o algoritmo força-bruta terá, no pior caso, complexidade de tempo O(n4). Entretanto, desde 1980 [23] se tem pesquisado formas (algoritmos) menos custosas de se computar o mapa de distâncias de uma imagem. Diversos algoritmos foram propostos, muitos deles com complexidade O(n3) para imagens n n. Recentemente algoritmos ótimos, O(n2), também foram apresentados. Neste trabalho paralelizamos um algoritmo de TDE bastante famoso, que foi proposto por Saito e Toriwaki em 1994 [16]. B. O algoritmo seqüencial de Saito e Toriwaki O algoritmo de Saito e Toriwaki computa o mapa de distâncias de uma imagem 2D n m fazendo duas transformações 1D: Transformação 1: para cada ponto (x, y) da imagem binária de entrada I é calculada (e armazenada no ponto correspondente do mapa) a sua distância euclidiana quadrada 5 até o ponto com valor 1 mais próximo na linha x, ou seja, até o ponto 1 mais próximo na mesma linha que (x, y): (x, y) = min {(y j) 2 ; (x, j) = 1, 0 j m 1} (3) O resultado desta transformação para a imagem mostrada 5 D E (p, q) = (p x - q x ) 2 + (p y - q y ) 2 ; muitos algoritmos utilizam a distância euclideana quadrada para evitar operações em ponto flutuante. (b) 488

4 em Fig. 5 (a) é ilustrado em Fig. 5 (b). (a) Fig. 5 Transformação 1. (a) Imagem binária de entrada I; (b) mapa de distâncias de I após a transformação 1. Transformação 2: faz-se uma nova transformação, agora na direção do eixo x, sobre o mapa de distâncias resultante da transformação 1. Para calcular a distância de cada ponto (x, y) são utilizados os valores armazenados na coluna y do mapa, da seguinte forma: (x, y) = min { (i, y) + (x - i) 2 ; 0 i n 1} (4) É mais simples entender tal transformação através da ilustração em Fig. 6. Esta figura ilustra a execução da transformação 2 do algoritmo para um ponto (x, y) (este procedimento irá se repetir em todos os pontos da imagem, com exceção dos pontos 1): (b) simultaneamente. O algoritmo da transformação 2 é da mesma forma aplicado em cada coluna da imagem e também poderia ser aplicado em todas as colunas em paralelo. C. O algoritmo paralelo Nesta seção descrevemos como nós paralelizamos o algoritmo de Saito e Toriwaki. Basicamente, nosso algoritmo divide a imagem, em pedaços de igual tamanho, entre os processadores do sistema. Para facilitar a apresentação do algoritmo paralelo, nós o dividimos em estágios que são descritos a seguir e ilustrados em Fig. 7. Primeiro, a imagem binária I é lida por um processador (thread) mestre. Depois (estágio 2), esta imagem é dividida horizontalmente, pelo processador mestre, em pedaços de igual tamanho. Por exemplo, se a imagem I contém oito linhas e o SMP quatro processadores, ela será dividida em quatro pedaços com duas linhas cada. Então (terceiro estágio), cada processador (incluindo o mestre) executa a transformação 1 do algoritmo de Saito e Toriwaki sobre as linhas no seu pedaço da imagem. O quarto estágio consiste de uma sincronização do tipo barreira [6], onde cada processador aguarda os demais terminarem o estágio 3. Então (quinto estágio), o processador mestre divide verticalmente, em pedaços de igual tamanho, a imagem resultante do estágio 3. Após isto, no estágio 6, cada processador executa a transformação 2 sobre as colunas do seu pedaço da imagem. Após o estágio 6 tem-se o mapa de distâncias da imagem, que em Fig. 7 é representado como um imagem em tons de cinza, onde a cor em cada ponto é proporcional à distância armazenada neste ponto. Fig. 6. Transformação 2 para um ponto (x, y). Para calcular a distância do ponto (x, y): (1º) considere toda a coluna a qual ele pertence, ou seja, a coluna y (na figura esta coluna é destacada em serrilhados); (2º) some em cada ponto desta coluna a distância euclidiana quadrada deste ponto até o ponto (x, y) (isto corresponde à (x i) 2 ); (3º) entre os resultados de todas as somas, escolha o de menor valor (na figura o menor é 2); este é o valor da distância que deve ser armazenada em (x, y). Não descreveremos aqui detalhes da implementação do algoritmo (transformação 1 + transformação 2) de Saito e Toriwaki; maiores detalhes podem ser encontrados em [16]. Apenas é importante comentar que, o algoritmo da transformação 1 é aplicado em cada linha da imagem, uma após a outra, e que não existe dependência entre os dados de linhas diferentes. Portanto, em principio, seria possível fazer a transformação 1 em todas as linhas da imagem Fig. 7 Estratégia de paralelismo V. RESULTADOS Nesta seção descrevemos com maiores detalhes o ambiente computacional utilizado na implementação do algoritmo paralelo e os resultados obtidos. 489

5 A. O ambiente computacional O algoritmo foi implementado em um SMP Sun Fire 3800 com sistema operacional Solaris 5.8, quatro processadores UltraSPARC III 750MHz e 4GB de memória RAM. Tanto o programa POSIX Threads quanto o programa OpenMP foram compilados com o compilador C (cc) do pacote Sun Workshop 6 update 2. B. Os resultados Os programas foram executados com imagens 2D de diferentes tamanhos, , , , , Executamos o programa seqüencial, o programa paralelo POSIX Threads e o programa paralelo OpenMP cinco vezes com cada imagem. Obtivemos então a média dos tempos de execução com cada imagem e calculamos os speedups (5) que são apresentados no gráfico em Fig. 8. Ts speedup = (5) T onde, T s é o tempo do programa seqüencial e T p é o tempo do programa paralelo. p Fig. 8. Resultados POSIX Threads OpenMP Os resultados mostram o desempenho superior da biblioteca POSIX Threads. VI. CONCLUSÃO Utilizando a biblioteca POSIX Threads e o compilador OpenMP cc disponíveis no sistema operacional Solaris 5.8, POSIX Threads apresentou melhor desempenho que OpenMP. Vale lembrar que tanto POSIX Threads quanto o OpenMP são apenas especificações e que, se forem utilizadas implementações diferentes das empregadas neste trabalho (por exemplo, outro compilador OpenMP), ou mesmo outro sistema operacional, os resultados podem ser diferentes. REFERÊNCIAS BIBLIOGRÁFICAS [1] R. Duncan, "A Survey of Parallel Computer Architectures," IEEE Computer, v. 23, n. 2, pp. 5-16, [2] W. Stallings, Arquitetura e organização de computadores: projeto para o desempenho, 5ed. São Paulo: Prentice Hall, [3] D. E. Culler, J. P. Singh e A. Gupta, Parallel computer architecture: a hardware/software approach. San Francisco: Morgan Kaufmann Publishers, [4] D. A. Patterson, J. L. Hennessy e D. Goldberg, Computer architecture: a quantitative approach. San Francisco: Morgan Kaufmann Publishers, [5] The National Center for Supercomputing Applications. (27 março 2004). Multilevel Parallel Programming. [Online]. Disponível em: [6] A. S. Tanenbaum, Modern Operating Systems, 2ed. Upper Saddle River, N.J.: Prentice Hall, [7] K. Hwang, Advanced computer architecture: parallelism, scalability, programmability. New York: Mcgraw-Hill, [8] G. S. Almasi e A. Gottlieb, Highly parallel computing, 2ed. Redwood City: Benjamin/Cummings, [9] A. S. Tanenbaum e J. R. Goodman, Structured computer organization, 4ed. Upper Saddle River, N.J.: Prentice Hall, [10] Laurence Livemore National Laboratory (29 março 2004). POSIX Threads. [Online] Disponível em: [11] The National Center for Supercomputing Applications. (17 agosto 2003). Introduction to OpenMP. [Online]. Disponível em: [12] Laurence Livemore National Laboratory (29 março 2004). OpenMP. [Online].Disponível em: [13] IEEE Computer Society (01 outubro 2003). A Backgrounder on IEEE Std , 2003 Edition. [Online]. Disponível em: [14] O. Cuisenaire, Distance Transformations: fast algorithms and applications to medical imaging, Tese (Doutorado), Laboratoire de telecommunications et teledetection, Université catholique de Louvain, Louvain-la-Neuve (Bélgica), [15] Q. Z. Ye, The signed euclidean distance transform and its applications, in Proc Int. Conference on Pattern Recognition, pp [16] T. Saito e J. I. Toriwaki, New Algorithms for Euclidean Distance Transformation of an n-dimensional Digitized Picture with applications, Pattern Recognition, v. 27, n. 11, pp , [17] A. Zeilinsky, A Mobile Robot Navigation Exploration Algorithm, IEEE Transactions of Robotics and Automation, v. 8, n. 6, pp , [18] J. Russ, The image processing handbook, 4ed. Boca Raton, FL: CRC Press, [19] F. Y. Shih e C. C. Pu, A Skeletonization Algorithm by Maxima Tracking on Euclidean distance transform, Pattern Recognition, v. 28, n. 3, pp , 1995 [20] L. Vicente e P. Soille, Watersheds in digital spaces: an efficient algorithm based on immersion simulations, IEEE Transactions on Pattern Analysis and Machine Intelligence, v. 13, n. 6, pp , [21] C. Tricot, Curves and Fractal Dimension. New York: Springer-Verlag, [22] L. F. Costa e A. G. C. Bianchi, A dimensão da dimensão Fractal, Ciência Hoje, v. 31, n. 183, pp , [23] P. E. Danielsson, Euclidean distance mapping, Computer Graphics and Image Processing, v. 14, pp , BIOGRAFIAS Julio Cesar Torelli recebeu o título de técnico em processamento de dados pelo Colégio Técnico Industrial da Universidade Estadual Paulista (CTI-UNESP) em Em 2002 graduou-se em tecnologia em informática pela Faculdade de Tecnologia de Jaú (FATEC-Jaú) e atualmente é aluno de mestrado no programa de pós-graduação em ciências de computação e matemática computacional do Instituto de Ciências Matemáticas e de Computação da Universidade de São Paulo (ICMC-USP), onde trabalha na 490

6 paralelização de algoritmos de transformada de distância euclidiana em agregados de computadores (clusters) e multiprocessadores simétricos. Odemir Martinez Bruno atua como professor e pesquisador no Instituto de Ciências Matemáticas e de Computação da Universidade de São Paulo (ICMC-USP) desde Ele graduou como bel. em Ciência da Computação em Recebeu o título de mestre em física aplicada em 1995, trabalhando com instrumentação eletrônica junto ao Instituto de Física de São Carlos da Universidade de São Paulo (IFSC-USP). Em 2000 concluiu o doutorado em física aplicada estudando paralelismo em visão natural e artificial, na área de visão cibernética do IFSC-USP. Seus principais interesses em pesquisa são: visão natural e artificial, análise de imagens, reconhecimento de padrões, biotecnologia, bioinformática e computação paralela. 491