Análise de Desempenho de Estratégias de Particionamento de Grafos

Análise de Desempenho de Estratégias de Particionamento de Grafos Diogo T. Murata, Rodrigo M. Martins, Vanderson M. do Rosario, Anderson F. da Silva 1 Departamento de Informática - Universidade Estadual de Maringá (UEM) Av. Colombo, 5790 - UEM - Bloco C56 - Maringá - PR - Brazil {ra69553,ra68773,ra67620}@uem.br, anderson@din.uem.br Resumo. No contexto de computação paralela aplicada a problemas com grafos, uma questão que deve ser analisada é a divisão do grafo entre as unidades de processamento. Este artigo investiga estratégias de particionamento de grafo. Os resultados alcançados demonstram que o desempenho está relacionado com a quantidade de interconexões geradas pela estratégia utilizada, como também pela sua complexidade. 1. Introdução Coloração de grafo possui diversas aplicações, incluindo escalonamento de trabalhadores, alocação de registradores, processamento de matrizes esparsas, agendamento de tarefas, entre outros. A formulação de tal problema é como segue. Dado um grafo G = (V, E), o problema da coloração de grafos tem como objetivo determinar a quantidade de cores necessárias para colorir todos os vértices de um grafo sem que vértices adjacentes tenham a mesma cor [Cormen et al. 2009]. Dentre os algoritmos desenvolvidos para solucionar tal problema, o algoritmo de Jones-Plassmann [Jones and Plassmann 1993] possui o atrativo de encontrar o número cromático 1 para diversas instâncias de grafos em um tempo aceitável. Este artigo investiga quatro estratégias de particionamento de grafo no contexto do algoritmo Jones-Plassmann paralelo, a saber: busca em largura (BFS), busca em profundidade (DFS), gulosa e aleatória. Os resultados indicam que o desempenho do algoritmo Jones-Plassmann paralelo está relacionado com a quantidade de interconexões geradas durante o particionamento do grafo entre as diferentes unidades de processamento (UP), como também pela complexidade da estratégia de particionamento. O restante deste artigo está organizado da seguinte maneira: a Seção 2 apresenta brevemente o algoritmo Jones-Plassmann; a Seção 3 apresenta os resultados e uma discussão sobre estes; e a Seção 4 finaliza este artigo apresentando algumas conclusões, trabalhos relacionados e os trabalhos futuros. 2. O Algoritmo Jones-Plassmann Jones e Plassmann [Jones and Plassmann 1993] propuseram um algoritmo para coloração que melhora o algoritmo MIS. O MIS colore o grafo em um processo iterativo, no qual cada iteração encontra e colore o maior conjunto independente de vértices do grafo. A 1 Quantidade mínima de cores para uma coloração efetiva - na qual não existem arestas conflitantes. 302

diferença do algoritmo Jones-Plassmann está no fato deste não criar uma nova permutação dos vértices toda vez que um conjunto independente precisa ser calculado. Um único conjunto de pesos aleatórios pode ser construído no começo e ser usado em todo o algoritmo. Isso é feito atribuindo números aleatórios para cada vértice e utilizando o número único para resolver um conflito no caso de vértices vizinhos estarem com o mesmo número. Além disto, Jones-Plassmann não encontra um conjunto independente máximo. Este encontra um conjunto independente usando o método de Luby de escolher vértices os quais os pesos são máximos locais. Outra diferença é que os vértices do conjunto independente não são atribuídos com a mesma cor nova, eles são coloridos usando a menor cor disponível que ainda não foi atribuída a nenhum vértice vizinho. 3. Resultados e Discussão No contexto de problemas paralelos que utilizam grafos, uma boa divisão de tais grafos possui o potencial de minimizar o tempo de processamento. Pelo fato de reduzir a contenção entre as UPs. Nesta seção são avaliadas as quatro estratégias de particionamento de grafo. Para alcançar tal objetivo foram implementadas quatro versões do algoritmo Jones-Plassmann, cada uma utilizando uma estratégia diferente de particionamento. Cada versão utiliza a estratégia de coloração maiores graus primeiro (Largest-Degree-First). Além disto, estas utilizam a biblioteca OpenMP, como estratégia de paralelização do algoritmo. Uma questão importante é a escolha das instâncias a serem avaliadas. Os experimentos foram realizados com instâncias de diferentes características, a saber: 1000 vértices, 2000 vértices, 4000 vértices e 8000 vértices. Além disto, para cada quantidade de vértices foram criadas duas instâncias, uma com densidade 0,1 e outra com densidade 0,5. Portanto, existem 8 instâncias diferentes. Tais instâncias foram criadas com a ferramenta GTgraph 2. A motivação do uso de tal ferramenta para criar grafos sintéticos, está no fato desta ser utilizada no contexto científico para avaliar algoritmos baseados em grafos. A avaliação experimental foi realizada em um computador que possui dois processadores Xeon E5504, 24 GB RAM e executa o sistema operacional Ubuntu x86 64 com kernel 3.5.0-23-generic. Cada processador possui 4 núcleos totalizando 8 UPs. Todas as UPs citadas nos experimentos são dessa máquina. Além disto, cada instância foi executada 12 vezes e os dados apresentados são a média entre 10 execuções, descartadas a pior e a melhor. Um ponto importante a ser ressaltado é o fato do foco do artigo ser a divisão do grafo entre as UPs e não no número cromático encontrado. De qualquer forma, os experimentos realizados indicam que independente da estratégia de particionamento, o algoritmo Jones-Plassmann encontra o mesmo número cromático para uma determinada instância. Além disto, o número cromático encontrado por Jones-Plassmann é o mesmo que o encontrado por um algoritmo guloso, implementado para avaliar a qualidade do resultado final encontrado por Jones-Plassmann. 3.1. Speedups A Figura 1 apresenta o speedup alcançado por cada versão do algoritmo Jones-Plassmann. 2 http://www.cse.psu.edu/ madduri/software/gtgraph/ 303

Figura 1. Speedup do algoritmo Jones-Plassmann com diferentes estratégias de particionamento. É possível perceber pela Figura 1 que o uso de duas UPs possui o melhor desempenho. A partir deste ponto ocorre uma perda de desempenho. Isto indica que o aumento de UPs está potencialmente aumentando o overhead do sistema como um todo. A estratégia gulosa é a que ocasiona o pior desempenho. De fato, independente da quantidade de UPs, o uso desta estratégia ocasiona uma desaceleração. Para a estratégia gulosa a versão paralela possui um desempenho pior do que a versão sequencial. As outras três estratégias possuem um comportamento semelhante. Embora, a estratégia aleatória tenha um desempenho ligeiramente superior a BFS e DFS. Estes resultados são interessantes, pelo fato de que em uma primeira instância não seja esperado que a estratégia aleatória seja melhor do que estratégias mais elaboradas. Uma questão que deve ser respondida é a falta de escalabilidade de tais estratégias. Este é o objetivo da próxima seção. 3.2. Custo da Divisão A perda de escalabilidade está relacionada ao fato de uma UP não encontrar em sua partição um vértice que seja maior (em sua métrica) que seus vizinhos. Isto ocorre normalmente porque os vizinhos estão em partições de outras UPs. Tal situação ocasiona uma perda de desempenho, pois a unidade precisa interromper sua execução até que outra processe um vértice que a permita continuar. Desta forma, o aumento da quantidade de UPs, em outras palavras o aumento de partições, potencialmente agrava este problema. Pois, quanto maior é a quantidade de partições do grafo, maior a chance de uma unidade precisar interromper sua execução. A quantidade de interconexões entre duas partições - arestas que ocasionam a interrupção da execução, resultante da estratégia de divisão do grafo, afeta drasticamente o desempenho. Um algoritmo de divisão de grafo que divida o grafo minimizando o número de arestas entre as partições diminuem as interconexões. No entanto, algoritmos de divisão do grafo podem necessitar de um tempo considerável nessa tarefa, e portanto o ganho de desempenho final com uma boa divisão pode não ser vantajoso. A Figura 2 apresenta a relação entre interconexões e tempo de execução. É possível perceber pela Figura 2 que o tempo de execução aumenta, independente da quantidade de UPs, com o aumento da quantidade de interconexões. Além disso, o tempo de execução aumenta seguindo uma determinada proporcionalidade. As estratégias aleatória, BFS, DFS, gulosa e aleatória não possuem as mesmas 304

(a) 2 UPs (b) 4 UPs (c) 8 UPs Figura 2. Relação entre interconexões e tempo de execução. divisões 3. Desta forma, cada estratégia resultará em diferentes quantidades de interconexões. Entretanto, deve ser considerado que tais estratégias possuem diferentes complexidades, consequentemente diferentes tempos de execução. Portanto, o overhead do particionamento do grafo deve ser levado em consideração. Além disto, como a parte sequencial de um código limita o speedup, a estratégia de particionamento terá grande impacto no desempenho. A Figura 3 apresenta as interconexões para cada estratégia de particionamento. (a) 2 UPs (b) 4 UPs (c) 8 UPs Figura 3. Quantidade de interconexões (em escala logarítmica) para cada versão do algoritmo Jones-Plassmann. A Figura 3 mostra que as estratégias BFS, DFS e aleatória possuem uma quantidade de interconexões similar, em diferentes instâncias. Enquanto a estratégia gulosa apresenta a maior quantidade de interconexões para todas as instâncias, principalmente para 4 e 8 UPs. Isto explica a perda de desempenho para a estratégia gulosa. É importante perceber que o aumento de UPs acarreta o aumento na quantidade de interconexões aproximadamente em uma ordem de grandeza. Isto aumenta consideravelmente o overhead, consequentemente ocasionando o baixo speedup. Os dados apresentados na Figura 3 explicam o speedup apresentado na Figura 1. Em geral as estratégias BFS e DFS possuem comportamentos semelhantes - no tocante a quantidade de interconexões, enquanto a estratégia aleatória possui uma ligeira diminuição desta quantidade para algumas instâncias. Além disto, esta estratégia é mais rápida do que as outras, ocasionando um menor impacto no desempenho geral 4. 3 Dada a restrição de espaço, tais dados não serão apresentados graficamente. 4 O speedup apresentado se refere a toda computação - desde a carga dos dados até a impressão do valor cromático, e não apenas o desempenho da parte paralela. 305

3.3. Alcançando um Speedup Próximo do Linear Para mostrar que a escalabilidade do algoritmo Jones-Plassmann está relacionada à estratégia de particionamento do grafo, foram criados grafos que sejam facilmente particionados pelas estratégias avaliadas. Para alcançar este objetivo, os grafos com 1000 vértices foram duplicados e arestas entre eles foram adicionadas - de forma aleatória. Este processo foi realizado três vezes, sempre duplicando a instância gerada na iteração anterior. É importante ressaltar que durante a criação de tais instâncias é necessário renomear os índices dos vértices, para que não existam vértices com o mesmo rótulo. Portanto, foram criadas 6 novas instâncias. A diferença entre estas e as utilizadas nas Seções 3.1 e 3.2, está no fato de se conhecer onde se inicia e onde se termina uma partição da instância. Desta forma, as estratégias de divisão se beneficiam dessas divisões muito bem delineadas, para determinar as partições que serão criadas. A Figura 4 apresenta o speedup alcançado por cada versão do algoritmo Jones- Plassmann, utilizando as 2 instâncias com 1000 vértices mais as 6 novas instâncias. Figura 4. Speedup do algoritmo Jones-Plassmann com diferentes estratégias de particionamento. Os dados apresentados na Figura 4 indicam que o comportamento das versões do algoritmo Jones-Plassmann seguem o mesmo padrão apresentado na Figura 1. A estratégia gulosa é a pior estratégia, ocasionado um desempenho pior do que a contraparte sequencial. Enquanto as outras estratégias possuem o melhor desempenho, com uma ligeira melhora para a estratégia aleatória. O uso das novas instâncias ocasionou um speedup próximo ao linear, o qual é aproximadamente duas vezes maior do que aquele alcançado com as instâncias originais. Isto indica que pelo menos quatro fatores influenciam o desempenho de algoritmos paralelos baseados em grafos, a saber: (1) a natureza do grafo; (2) a quantidade de partições; (3) a quantidade de interconexões entre as partições do grafo; e (4) a complexidade da estratégia de particionamento. 4. Conclusões Este artigo investigou diferentes estratégias de particionamento de grafo. Os resultados indicam que o desempenho está relacionado a quantidade de interconexões existentes entre as partições. Além disto, estes indicam que uma estratégia simples - aleatória - possui o atrativo de ser rápida, minimizando o custo da parte sequencial do processamento e consequentemente maximizando o desempenho final alcançado. Embora, esta não encontre necessariamente um bom particionamento. 306

Por outro lado, a natureza do grafo tende a limitar tal desempenho. O que foi demonstrado com o uso de instâncias para as quais cada partição tende a conter um bom agrupamento. Contudo, tal situação nem sempre será encontrada. De fato, a tendência é existir grafos irregulares, os quais não ocasionarão um particionamento ideal. Portanto, neste contexto as pesquisas devem ser voltadas para a implementação de estratégias eficientes de particionamento de grafos irregulares. Basicamente tais estratégias devem buscar as seguintes características: (1) serem rápidas, (2) alcançarem o melhor balanceamento de carga possível; e (3) minimizar ao máximo a quantidade de interconexões entre as partições. Trabalhos Relacionados: Pesquisas com algoritmos paralelos para estruturas com componentes conectados vem sendo realizadas ao longo das últimas décadas [Jones and Plassmann 1993, Greiner 1994]. Gebremedhin e Manne [Gebremedhin and Manne 2000] analisam a escalabilidade de algoritmos paralelos de coloração de grafo baseado em métodos gulosos. Abbasian e Mouhoub [Abbasian and Mouhoub 2011] propuseram um algoritmo genético hierárquico paralelo para a solução do problema de coloração de grafo. Hasenplaugh e outros [Hasenplaugh et al. 2014] analisam diferentes heurísticas de ordenação para coloração de grafo baseado em algoritmos gulosos paralelos. Trabalhos Futuros: O próximo passo deste trabalho de iniciação científica é propor estratégias de particionamento que minimizem a quantidade de interconexões. Além disto, serão propostas versões do algoritmo Jones-Plassmann que façam uso de GPUs, além de OpenMP. Referências Abbasian, R. and Mouhoub, M. (2011). An Efficient Hierarchical Parallel Genetic Algorithm for Graph Coloring Problem. In Proceedings of the Annual Conference on Genetic and Evolutionary Computation, pages 521 528, New York, NY, USA. ACM. Cormen, T. H., Leiserson, C. E., Rivest, R. L., and Stein, C. (2009). Algorithms. The MIT Press, 3rd edition. Introduction to Gebremedhin, A. H. and Manne, F. (2000). Scalable Parallel Graph Coloring Algorithms. Concurrency - Practice and Experience, 12(12):1131 1146. Greiner, J. (1994). A Comparison of Parallel Algorithms for Connected Components. In Proceedings of the Annual ACM Symposium on Parallel Algorithms and Architectures, pages 16 25, New York, NY, USA. ACM. Hasenplaugh, W., Kaler, T., Schardl, T. B., and Leiserson, C. E. (2014). Ordering Heuristics for Parallel Graph Coloring. In Proceedings of the ACM Symposium on Parallelism in Algorithms and Architectures, pages 166 177, New York, NY, USA. ACM. Jones, M. T. and Plassmann, P. E. (1993). A Parallel Graph Coloring Heuristic. SIAM Journal of Scientific Computing, 14(3):654 669. 307