Investigando a Influência da Organização de Caches L2 no Desempenho de Processadores Multicore Superescalares

Transcrição

1 Investigando a Influência da Organização de Caches L2 no Desempenho de Processadores Multicore Superescalares Pedro H. Penna, Henrique C. Freitas 1 Grupo de Arquitetura de Computadores e Processamento Paralelo (CArT) Pontifícia Universidade Católica de Minas Gerais pedro.penna@sga.pucminas.br, cota@pucminas.br Abstract. Multicore processors are being embraced as solution to increase performance instead of techniques that explore instruction throughput, such as superescalar pipelines. Due to that, many research efforts in computer architecture are focused on this subject. In this context, one of the problems is the L2 cache organization. This paper presents a study of how the L2 cache organization influences the performance of multicore superescalar processors. The results showed that when the granularity of L2 cache sharing increases the performance degrades, and when the L2 cache associativity increases the performance is improved. For workloads with irregular memory accesses, the performance gain was the largest observed, up to 18.36%. Resumo. Processadores multicore vêm sendo adotados como solução para o aumento do desempenho no lugar de técnicas que exploram a vazão de instruções, como pipelines superescalares. Por isso, muitos esforços de pesquisa em arquitetura de computadores estão concentrados nesse assunto. Neste contexto, um dos problemas é a organização de caches L2. Este artigo apresenta um estudo da influência da organização de caches L2 no desempenho de processadores multicore superescalares. Os resultados revelaram que o aumento do compartilhamento da cache L2 degrada o desempenho, enquanto o aumento da associatividade da cache L2 impacta positivamente no desempenho. Para cargas de trabalho com acesso irregular à memória, o ganho de desempenho foi o maior observado, em até 18.36%. 1. Introdução O desempenho de um processador está relacionado ao número de instruções concluídas por ciclo, frequência de operação ou a vazão de instruções do processador [Olukotun and Hammond 2005]. Estudos recentes apontam que o aumento da frequência não é a chave para o ganho de desempenho, uma vez que os tempos de propagação dos sinais internos ao processador devem ser atendidos. Devido a isso, abordagens que proporcionam uma maior vazão de instruções vêm sendo estudadas, destacando-se os processadores superescalares e os processadores multicore [Borkar 2007]. Em um processador superescalar, múltiplas unidades funcionais são replicadas em seu projeto e o processamento de uma instrução é dividida em uma sequência de estágios. Essa abordagem torna possível que diferentes instruções sejam executadas simultaneamente e que técnicas avançadas, tais como a execução fora de ordem e especulativa, 236

2 sejam adotadas. Dessa forma, o uso das unidades funcionais ao longo do caminho de dados do processador é maximizado e a quantidade de ciclos gastos por instrução reduz [Olukotun and Hammond 2005]. Processadores superescalares proporcionam um ganho de desempenho, pois exploram o paralelismo intrínseco existente entre as instruções. No entanto, ganhos ainda maiores são possíveis com os processadores multicore. Nessa abordagem, múltiplos elementos de processamento (núcleos) são agrupados e interconectados em um único processador, de forma que o ganho de desempenho se dê pela exploração do paralelismo entre diferentes threads [Olukotun and Hammond 2005]. Muitos esforços de pesquisa em arquiteturas de computadores realizadas nos últimos anos estão concentradas em processadores multicore [Borkar 2007]. Um dos problemas relacionados a esse tema e que vem sendo estudado é a organização de memórias cache L2 [Marino 2006] [Alves et al. 2007] [Alves et al. 2011]. Nesse contexto, diferentes organizações exercem influência direta no desempenho do processador para uma determinada aplicação. Como exemplo, considere uma aplicação multithreading que realiza acesso intenso e regular à memória. Um aumento de desempenho pode ser obtido compartilhando-se a mesma memória cache L2 entre diferentes núcleos. Isso pode ser explicado pela redução do tempo de acerto ao explorar-se a localidade espacial de dados. No entanto, se muitos núcleos compartilharem uma mesma memória cache L2, o conjunto de trabalho pode não caber na cache, implicando em um aumento da taxa de falhas e, consequentemente, uma degradação no desempenho. Esse impasse pode ser agravado para aplicações multithreading com acesso intenso e irregular à memória. Nessa situação, uma alternativa seria a de também explorar diferentes políticas de mapeamento, uma vez que uma maior associatividade favorece o aumento da dispersão dos dados encontrados na cache. Seguindo essa linha, o objetivo do presente trabalho está na investigação da influência de organização de caches L2 no desempenho de processadores multicore superescalares. Para tanto, são avaliadas diferentes configurações de compartilhamento e políticas de mapeamento sob a execução de cargas de trabalho de acesso regular e irregular à memória, com conjunto de dados contíguos e não contíguos. A principal contribuição deste trabalho está na ampliação dos estudos iniciados por outros autores [Marino 2006] [Alves et al. 2007] [Alves et al. 2011]. O restante deste trabalho está organizado da seguinte forma: na Seção 2 são apresentados os trabalhos relacionados; na Seção 3 é exposta a metodologia; na Seção 4 são apresentados os resultados obtidos; e na Seção 5 são discutidas as conclusões do trabalho. 2. Trabalhos Relacionados No estudo de [Marino 2006] é feita uma avaliação de como o compartilhamento da cache L2 impacta no desempenho de um processador multicore. A arquitetura base proposta consistia em um chip multiprocessor com 32 núcleos escalares Ultra Sparc III, cada um dotado de uma cache privada para dados e outra para instruções. Quanto às configurações de compartilhamento, foram adotadas as de 1, 2, e 4 processadores por cache L2. Cinco cargas de trabalho do conjunto de benchmarks SPLASH-2 foram trabalho selecionadas para o estudo. Ao final, os autores concluíram que compartilhamento da cache L2 promove um aumento no desempenho do processador. Comparado à configuração 237

3 onde a cache L2 é privada, observou-se ganhos de 8, 7% (FMM) e 40, 3% (Raytrace). No trabalho de [Alves et al. 2007] é realizado um estudo sobre o compartilhamento de caches L2 e sua influência no desempenho de processadores multicore. Para tanto, os autores analisaram a execução da aplicação Ocean (SPLASH-2), com conjuntos de dados contíguos e não contíguos, em uma arquitetura simulada semelhante à proposta em [Marino 2006], porém com agrupamentos de processadores por cache L2 variando de 1 até 32 processadores por grupo. Para cargas de trabalho com conjuntos de dados contíguos foi observada uma melhora no desempenho conforme aumentou-se os agrupamentos de núcleos, sendo constatado um ganho máximo de 0, 93%. Já para cargas de trabalho com conjuntos de dados não contíguos, constatou-se que o compartilhamento da memória cache L2 não favorece um ganho de desempenho. Ainda na mesma linha, os autores propuseram um trabalho complementar [Alves et al. 2011] no qual foi feita uma avaliação de diferentes organizações de compartilhamento de cache L2, mas dessa vez considerando contenções e latências de acesso a memória bem como tamanho de linha e da cache. Os autores estudaram nove aplicações do conjunto de benchmarks paralelos NAS-NPB e concluíram que o compartilhamento de cache impõe diversas restrições na latência de acesso, potência e área de ocupação no chip para aumentar o número de portas na arquitetura, e que poucas portas implicam em um gargalo de acesso à cache. Além disso, o compartilhamento de caches entre 2 e 4 processadores apresentou degradação de desempenho, devido a contenção e latência. O presente trabalho se diferencia dos trabalhos relacionados apresentados anteriormente em três aspectos: (I) ele avalia a influência do compartilhamento e associatividade da cache L2 no desempenho de um processador multicore; (II) o estudo é realizado em um processador multicore com núcleos superescalares; e (III) considera o estudo de quatro cargas de trabalho, com conjunto de dados contíguos e não contíguos. 3. Metodologia Assim como nos trabalhos relacionados [Marino 2006] [Alves et al. 2007] [Alves et al. 2011], adotou-se neste trabalho o método de simulação para a realização do estudo proposto. Nessa seção são apresentados a arquitetura de estudo proposta, o ambiente de simulação utilizado e as cargas de trabalho selecionadas Arquitetura Proposta O estudo da influência da organização de caches L2 no desempenho de processadores multicore foi realizado na arquitetura ilustrada na Figura 1. Basicamente, essa arquitetura consiste de 8 núcleos MIPS superescalares, cada um dotado de caches privadas de dados e instruções, agrupadas sob diferentes organizações de forma a compartilhar as memórias cache L2. As diferentes configurações de organização propostas variam entre 1 e 8 núcleos por cache L2 e são resumidas na tabela 1. Já as especificações da arquitetura proposta são detalhadas a seguir: Núcleos: possuem duas vias de execução, suportam o despacho e conclusão de instruções fora de ordem; e são dotados de hardware para predição de desvios. Cache : possui um tamanho total de 32 kb, linhas de 32 bytes, associatividade de 4-way e latência de acesso de 3 ciclos; e adota o protocolo LRU para substituição de blocos. 238

4 Núcleo 0 Núcleo 3 Núcleo 4 Núcleo 7 L2 L2 RAM Figura 1. Arquitetura proposta. Tabela 1. Configurações de cache. Nome Número de Núcleos por Conjuntos Conjunto L2S8C1 8 1 L2S4C2 4 2 L2S2C4 2 4 L = Level, S = Set, C = Core Cache L2: possui um tamanho total de 1 MB, linhas de 32 bytes e latência de acesso de 10 ciclos; e adota o protocolo LRU para substituição de blocos e o protocolo MESI para coerência de dados. Quanto à associatividade, para cada uma das organizações de compartilhamento de cache propostas, foram analisadas associatividades de 4-way, 8-way e 16-way. Memória Principal: tamanho total de 64 MB e latência de acesso de 200 ciclos Ambiente de Simulação e Cargas de Trabalho O ambiente utilizado para a simulação da arquitetura proposta na Subseção 3.1 foi o SESC, um simulador de sistema completo determinístico capaz de simular arquiteturas MIPS single-core, multi-core e many-core em nível de instrução. O SESC foi escolhido como ambiente de simulação por (I) suportar a execução das cargas de trabalho selecionadas para análise; (II) permitir a parametrização ultra-fina da arquitetura conforme detalhado anteriormente; e (III) por ser capaz de gerar as estatísticas de simulação relevantes para este trabalho (i.e. cache hits, cache misses e ciclos de execução). As cargas de trabalho selecionadas para o estudo foram as aplicações Ocean e LU, ambas do conjunto de benchmarks SPLASH-2 [Woo et al. 1995]. A aplicação Ocean estuda movimentos de grande escala em um oceano e caracteriza-se pelo acesso intenso e irregular à memória. Já a aplicação LU realiza a fatoração em blocos de um matriz densa no produto de uma matriz triangular inferior com uma matriz triangular superior, caracterizando-se pelo acesso intenso e regular à memória [Woo et al. 1995]. É importante ressaltar que ambas as aplicações possuem duas diferentes implementações, sendo ambas utilizadas no trabalho: uma com o conjunto de dados contíguos, e outra com o conjunto de dados não contíguos. Portanto, o comportamento de quatro cargas de trabalho foram estudadas: Ocean Contiguous (Ocean-Con), Ocean Non-Contiguous (Ocean-Non), LU Contiguous (LU-Con) e LU Non-Contiguous (LU-Non). 4. Resultados As cargas de trabalho selecionadas foram compiladas com o compilador GCC 4.0 e executadas sob entradas de tamanho da Classe-A na arquitetura proposta. Os resultados obtidos são apresentados na Figura 2 e discutidos a seguir. É importante observar que, nessa discussão, conclusões relativas à degradação ou aumento de desempenho foram tiradas a partir da análise de ciclos gastos nas simulações. A Figura 2 (a) e a Figura 2 (b) apresentam o gráfico arquitetura vs. ciclos e taxa de acertos na cache L2 para a carga Ocean-Con, respectivamente. Observa-se que o compartilhamento da cache L2 degradou o desempenho em 41.81% (cache 4-way), 42.03% 239

5 taxa de acertos cache L2 (%) WSCAD XV Simpósio em Sistemas Computacionais de Alto Desempenho ocean-con ocean-con ciclos (milhões) (a) ocean-non (c) lu-con (b) ocean-non (d) lu-con (e) lu-non (f) lu-non (g) (h) organização de cache 4-way 8-way 16-way Figura 2. Resultados das simulações. (cache 8-way) e 41.16% (cache 16-way); e que o aumento da associatividade proporcionou um ganho de desempenho de 6.03% (L2S8C1), 7.28% (L2S4C2) e 6.46% (L2S2C4). A Figura 2 (c) e a Figura 2 (d) apresentam o gráfico arquitetura vs. ciclos e taxa de acertos na cache L2 para a carga Ocean-Non, respectivamente. Os resultados revelam que o compartilhamento de cache L2 degradou o desempenho em 21.42% (cache 4-way), 24.53% (cache 8-way) e 25.83% (cache 16-way); e que o aumento da associatividade proporcionou um ganho de desempenho de 18.36% (L2S8C1), 17.23% (L2S4C2) 15.39% (L2S2C4). A Figura 2 (e) a Figura 2 (f) apresentam o gráfico arquitetura vs. ciclos e taxa de acertos no cache L2 para a carga LU-Con, respectivamente. Os resultados mostraram um comportamento semelhante à carga Ocean Contiguous. O compartilhamento da cache L2 degradou o desempenho em 3.62% (cache 4-way), 3.59% (cache 8-way) e 3.95% (cache 16-way); e que o aumento da associatividade proporcionou um ganho de desempenho de 1.36% (L2S8C1), 1.41% (L2S4C2) e 1.04% (L2S2C4). Por fim, a Figura 2 (g) e a Figura 2 (h) apresentam o gráfico arquitetura vs. ciclos e taxa de acertos no cache L2 para a carga LU-Non, respectivamente. Observa-se que o compartilhamento de cache L2 degradou o desempenho em 1.58% (cache 4-way), 0.11% (cache 8-way) e 7.59% (cache 16-way); e que o aumento da associatividade incentivou um ganho de desempenho de 7.58% (L2S8C1), 2.65% (L2S4C2) e 2.11% (L2S2C4). 240

6 Analisando os resultados é possível identificar dois comportamentos comuns às cargas de trabalho consideradas: (I) o aumento do compartilhamento da cache L2 degradou o desempenho e (II) o aumento da associatividade da cache L2 promoveu um ganho de desempenho. Relacionado a isso, observa-se que as maiores degradações e ganhos de desempenho foram obtidos nas cargas Ocean-Con e Ocean-Non, respectivamente. Essa característica pode ser explicada pela própria natureza da aplicação; acesso intenso e irregular à memória. Considerando a arquitetura proposta, a superescalaridade pode agravar o acesso irregular à memória (ex. : execução de instruções fora de ordem) e o compartilhamento da cache L2 dificulta que o conjunto de trabalho dos núcleos de um mesmo grupo coexistam na memória cache. No entanto, o aumento da associatividade aumenta a probabilidade de que dados mais distantes convivam simultaneamente na cache L2, fato que, não só atenua a degradação no desempenho provocada pelo acesso irregular à memória, como também proporciona ganho no desempenho. 5. Conclusões Este artigo apresenta um estudo da influência da organização de caches L2 no desempenho de processadores multicore superescalares. Para tanto, uma arquitetura com diferentes configurações de compartilhamento e organização da cache L2 foi proposta, simulada e estudada através da análise de resultados de execução de cargas de trabalho. Foram consideradas cargas de trabalho de acesso regular e irregular à memória, com conjunto de dados contíguos e não contíguos. Os resultados revelaram que o aumento do compartilhamento da cache L2 impacta negativamente no desempenho, enquanto o aumento da associatividade da cache L2 impacta positivamente no desempenho. Para cargas de trabalho com acesso irregular à memória, o ganho de desempenho foi o maior observado, em até 18.36%. Como trabalhos futuros, sugere-se a execução de mais cargas de trabalho na arquitetura proposta e o estudo em arquiteturas com suporte à simultaneous multithreading. Referências Alves, M., Freitas, H. C., and Navaux, P. O. A. (2011). High latency and contention on shared l2-cache for many-core architectures bibtex. Parallel Processing Letters, 21:85. Alves, M., Freitas, H. C., R., W. F., and A., N. O. (2007). Influência do compartilhamento de cache l2 em um chip multiprocessado sob cargas de trabalho com conjuntos de dados contíguos e não contíguos. In VIII Workshop em Sistemas Computacionais de Alto Desempenho. Borkar, S. (2007). Thousand core chips: A technology perspective. In Proceedings of the 44th Annual Design Automation Conference, DAC 07, pages Marino, M. (2006). 32-core cmp with multi-sliced l2: 2 and 4 cores sharing a l2 slice. In Computer Architecture and High Performance Computing, SBAC-PAD TH International Symposium on, pages Olukotun, K. and Hammond, L. (2005). The future of microprocessors. Queue, 3(7): Woo, S., Ohara, M., Torrie, E., Singh, J., and Gupta, A. (1995). The splash-2 programs: characterization and methodological considerations. In Computer Architecture, Proceedings., 22nd Annual International Symposium on, pages