Ambientes de computação de alto desempenho no LNCC

Transcrição

1 Ambientes de computação de alto desempenho no LNCC Roberto Pinto Souto MCTI/LNCC/CSR - CENAPAD-RJ rpsouto@lncc.br 24 de Março de 2014 (Seminário da Pós-graduaçao) 24 de Março de / 78

2 Roteiro 1 Introdução 2 Recursos de Hardware 3 Recursos de Software 4 Considerações Finais (Seminário da Pós-graduaçao) 24 de Março de / 78

4 Introdução Apresentação Diversas aplicações científicas podem executar um número tão elevado de operações que, a fim de que sejam finalizadas em um tempo factível, se faz necessária a utilização de máquinas com cada vez maior poder de processamento. Notadamente, estas são máquinas paralelas que possuem um determinado número de núcleos computacionais ( cores ), distribuídos em processadores convencionais (CPUs) e aceleradores (GPUs). É importante, portanto, o usuário que desejar reduzir o tempo de processamento de uma aplicação que roda sequencialmente, ter o conhecimento das diferentes opções de ferramentas computacionais que dão suporte à uma execução paralela. O LNCC dispõe de máquinas paralelas que contém compiladores, bibliotecas e ferramentas que possibilitam ao usuário obter desempenho paralelo dos códigos científicos utilizados. Neste seminário será dada uma visão geral destes recursos e de serviços em computação de alto desempenho disponibilizados no LNCC. (Seminário da Pós-graduaçao) 24 de Março de / 78

12 Computação de Alto Desempenho (Seminário da Pós-graduaçao) 24 de Março de / 78

13 Computação de Alto Desempenho High Performance Computing (HPC) (Seminário da Pós-graduaçao) 24 de Março de / 78

14 Computação de Alto Desempenho High Performance Computing (HPC) Definition High Performance Computing most generally refers to the practice of aggregating computing power in a way that delivers much higher performance than one could get out of a typical desktop computer or workstation in order to solve large problems in science, engineering, or business. FONTE: (Seminário da Pós-graduaçao) 24 de Março de / 78

15 Computação de Alto Desempenho High Performance Computing (HPC) Definition High Performance Computing most generally refers to the practice of aggregating computing power in a way that delivers much higher performance than one could get out of a typical desktop computer or workstation in order to solve large problems in science, engineering, or business. FONTE: Definição - tradução livre Computação de Alto Desempenho, de um modo geral, se refere à prática de agregar poder de processamento a fim de proporcionar um desempenho muito maior do que se poderia obter de um desktop ou estação de trabalho, para resolver grandes problemas em ciência, em engenharia ou comerciais. FONTE: (Seminário da Pós-graduaçao) 24 de Março de / 78

16 Instituições que demandam poder computacional Comerciais Ramo financeiro; Seguradoras; Sistemas industriais; Científicas Universidades; Centros de pesquisa; Indústrias aeronáutica, automobilística, de energia, entre outras; (Seminário da Pós-graduaçao) 24 de Março de / 78

17 Problemas de Grande Porte FONTE: (Seminário da Pós-graduaçao) 24 de Março de / 78

18 Simulações de Grande Porte Aplicações Científicas: (Seminário da Pós-graduaçao) 24 de Março de / 78

19 Simulações de Grande Porte Aplicações Científicas: Atmosfera, ambiental Física: aplicada, nuclear, da partícula, matéria condensada, fusão, fotônica Biociência, Biotecnologia, Genética Química Geologia Engenharia Mecânica: indústria aeroespacial, indústria automobilística, energia Engenharia Elétrica: projeto de circuitos, microeletrôncia Ciência da Computação, Matemática Defesa, material bélico (Seminário da Pós-graduaçao) 24 de Março de / 78

20 Aplicações Científicas no LNCC Previsão do Tempo Meta-heurísticas Massivamente Paralelas Métodos de Elementos Finitos Multi-escalas Predição de Estruturas de Proteínas Simulação Paralela de Computação Quântica Simulação em Reservatórios de Petróleo Bionformática Workflow Científico para Modelagem de Biodiversidade Gerenciamento e Mineração de Dados em Ciência Simulação Computacional do Sistema Cardiovascular Humano (Seminário da Pós-graduaçao) 24 de Março de / 78

21 Processamento Paralelo Programa sequencial ou serial (Seminário da Pós-graduaçao) 24 de Março de / 78

22 Processamento Paralelo Programa sequencial ou serial Programa Paralelo (Seminário da Pós-graduaçao) 24 de Março de / 78

23 Arquitetura de Computadores Paralelos Memória compartilhada Memória Distribuída (Seminário da Pós-graduaçao) 24 de Março de / 78

24 Arquitetura de Computadores Paralelos Memória compartilhada Memória Distribuída Uniform Memory Access (UMA) (Seminário da Pós-graduaçao) 24 de Março de / 78

25 Arquitetura de Computadores Paralelos Memória compartilhada Memória Distribuída Uniform Memory Access (UMA) Non-Uniform Memory Access (NUMA) (Seminário da Pós-graduaçao) 24 de Março de / 78

26 Arquitetura de Computadores Paralelos Memória compartilhada Memória Distribuída Uniform Memory Access (UMA) Non-Uniform Memory Access (NUMA) (Seminário da Pós-graduaçao) 24 de Março de / 78

27 Arquitetura de Computadores Paralelos Memória compartilhada Memória Distribuída Arquitetura Híbrida Uniform Memory Access (UMA) Non-Uniform Memory Access (NUMA) (Seminário da Pós-graduaçao) 24 de Março de / 78

28 Arquitetura de Computadores Paralelos Memória compartilhada Memória Distribuída Arquitetura Híbrida Uniform Memory Access (UMA) Non-Uniform Memory Access (NUMA) (Seminário da Pós-graduaçao) 24 de Março de / 78

29 Arquitetura de Computadores Paralelos Symmetric Multi-Processing (SMP) (Seminário da Pós-graduaçao) 24 de Março de / 78

30 Arquitetura de Computadores Paralelos Symmetric Multi-Processing (SMP) Massively Parallel Processing (MPP) (Seminário da Pós-graduaçao) 24 de Março de / 78

31 Arquitetura de Computadores Paralelos Symmetric Multi-Processing (SMP) Massively Parallel Processing (MPP) Cluster (Seminário da Pós-graduaçao) 24 de Março de / 78

32 Ma quinas paralelas Cluster (Semina rio da Po s-graduac ao) 24 de Marc o de / 78

33 Ma quinas paralelas Cluster computadores agregados por uma rede de interconexa o; (Semina rio da Po s-graduac ao) 24 de Marc o de / 78

34 Ma quinas paralelas Cluster computadores agregados por uma rede de interconexa o; (Semina rio da Po s-graduac ao) 24 de Marc o de / 78

35 Ma quinas paralelas Cluster computadores agregados por uma rede de interconexa o; ma quina de memo ria distribuı da; (Semina rio da Po s-graduac ao) 24 de Marc o de / 78

36 Máquinas paralelas Cluster computadores agregados por uma rede de interconexão; máquina de memória distribuída; (Seminário da Pós-graduaçao) 24 de Março de / 78

37 Cluster Propriedades Boa relação Custo/Desempenho (Seminário da Pós-graduaçao) 24 de Março de / 78

38 Cluster Propriedades Boa relação Custo/Desempenho Configuração ajustável (Seminário da Pós-graduaçao) 24 de Março de / 78

39 Cluster Propriedades Boa relação Custo/Desempenho Configuração ajustável Escalável (Seminário da Pós-graduaçao) 24 de Março de / 78

40 Cluster Propriedades Boa relação Custo/Desempenho Configuração ajustável Escalável Rápida incorporação de novas tecnologias (Seminário da Pós-graduaçao) 24 de Março de / 78

41 Arquitetura de um Cluster (Seminário da Pós-graduaçao) 24 de Março de / 78

42 Arquitetura de um Cluster Rede de Alta Velocidade / Rede de Interconexão (Seminário da Pós-graduaçao) 24 de Março de / 78

43 Arquitetura de um Cluster Rede de Alta Velocidade / Rede de Interconexão Padrões: Gigabit Ethernet (até 100 Gb/s), Infiniband (até 300 Gb/s) e Proprietárias (Seminário da Pós-graduaçao) 24 de Março de / 78

44 Arquitetura de um Cluster PC / NÓS de Processamento (Seminário da Pós-graduaçao) 24 de Março de / 78

45 Arquitetura de um Cluster PC / NÓS de Processamento Arquiteturas: multi-core (CPUs) e many-core (coprocessadores) (Seminário da Pós-graduaçao) 24 de Março de / 78

46 Arquitetura de um Cluster PC / NÓS de Processamento Arquiteturas: multi-core (CPUs) e many-core (coprocessadores) multi-core: Intel Xeon, AMD Opteron, IBM Power (Seminário da Pós-graduaçao) 24 de Março de / 78

47 Arquitetura de um Cluster PC / NÓS de Processamento Arquiteturas: multi-core (CPUs) e many-core (coprocessadores) multi-core: Intel Xeon, AMD Opteron, IBM Power many-core: Intel Xeon Phi, AMD ATI Radeon, Nvidia Tesla (Seminário da Pós-graduaçao) 24 de Março de / 78

48 Arquitetura de um Cluster Cluster Middleware (Seminário da Pós-graduaçao) 24 de Março de / 78

49 Arquitetura de um Cluster Cluster Middleware Sistema Operacional: CentOS, Suse, Debian, etc... (Seminário da Pós-graduaçao) 24 de Março de / 78

50 Arquitetura de um Cluster Cluster Middleware Sistema Operacional: CentOS, Suse, Debian, etc... Sistema de Gerenciamento de Recursos: PBS/Torque, SGE, etc... (Seminário da Pós-graduaçao) 24 de Março de / 78

51 Arquitetura de um Cluster Ambiente de Programação Paralela (Seminário da Pós-graduaçao) 24 de Março de / 78

52 Arquitetura de um Cluster Ambiente de Programação Paralela Entre os nós / memória distribuída: MPI (Message Passing Interface) (Seminário da Pós-graduaçao) 24 de Março de / 78

53 Arquitetura de um Cluster Ambiente de Programação Paralela Entre os nós / memória distribuída: MPI (Message Passing Interface) Dentro do nó / memória compartilhada: pthreads, OpenMP, OpenACC, OpenCL (Seminário da Pós-graduaçao) 24 de Março de / 78

54 Arquitetura de um Cluster Ambiente de Programação Paralela Entre os nós / memória distribuída: MPI (Message Passing Interface) OpenSHMEM*, UPC (Unified Parallel C)*, CAF (Co-Array Fortran)* Dentro do nó / memória compartilhada: pthreads, OpenMP, OpenACC, OpenCL (Seminário da Pós-graduaçao) 24 de Março de / 78

55 Arquitetura de um Cluster Ambiente de Programação Paralela Entre os nós / memória distribuída: MPI (Message Passing Interface) OpenSHMEM*, UPC (Unified Parallel C)*, CAF (Co-Array Fortran)* Dentro do nó / memória compartilhada: pthreads, OpenMP, OpenACC, OpenCL, CilkPlus*, TBB*, CUDA* (Seminário da Pós-graduaçao) 24 de Março de / 78

56 Arquitetura de um Cluster Ambiente de Programação Paralela Entre os nós / memória distribuída: MPI (Message Passing Interface) *PGAS (Partioned Global Address Space) Dentro do nó / memória compartilhada: pthreads, OpenMP, OpenACC, OpenCL, * Proprietárias (Seminário da Pós-graduaçao) 24 de Março de / 78

57 Arquitetura de um Cluster Ambiente de Programação Paralela Compiladores (produção): GNU, Intel, PGI, Cray (Seminário da Pós-graduaçao) 24 de Março de / 78

58 Arquitetura de um Cluster Ambiente de Programação Paralela Compiladores (produção): GNU, Intel, PGI, Cray Compiladores (pesquisa): Open64/OpenUH Mercurium/Nanos++ (BSC), Rose (LLNL) (Seminário da Pós-graduaçao) 24 de Março de / 78

59 Cluster Desafios Escalabilidade: física e de aplicação; (Seminário da Pós-graduaçao) 24 de Março de / 78

60 Cluster Desafios Escalabilidade: física e de aplicação; Disponibilidade: gerenciamento de falhas; (Seminário da Pós-graduaçao) 24 de Março de / 78

61 Cluster Desafios Escalabilidade: física e de aplicação; Disponibilidade: gerenciamento de falhas; Imagem única do sistema: parece ao usuário como se fosse um único sistema; (Seminário da Pós-graduaçao) 24 de Março de / 78

62 Cluster Desafios Escalabilidade: física e de aplicação; Disponibilidade: gerenciamento de falhas; Imagem única do sistema: parece ao usuário como se fosse um único sistema; Comunicação rápida: redes e protocolos de comunicação; (Seminário da Pós-graduaçao) 24 de Março de / 78

63 Cluster Desafios Escalabilidade: física e de aplicação; Disponibilidade: gerenciamento de falhas; Imagem única do sistema: parece ao usuário como se fosse um único sistema; Comunicação rápida: redes e protocolos de comunicação; Balanceamento de carga: CPU, rede, memória, discos; (Seminário da Pós-graduaçao) 24 de Março de / 78

64 Cluster Desafios Escalabilidade: física e de aplicação; Disponibilidade: gerenciamento de falhas; Imagem única do sistema: parece ao usuário como se fosse um único sistema; Comunicação rápida: redes e protocolos de comunicação; Balanceamento de carga: CPU, rede, memória, discos; Gerenciamento: administração e controle; (Seminário da Pós-graduaçao) 24 de Março de / 78

65 Cluster Desafios Escalabilidade: física e de aplicação; Disponibilidade: gerenciamento de falhas; Imagem única do sistema: parece ao usuário como se fosse um único sistema; Comunicação rápida: redes e protocolos de comunicação; Balanceamento de carga: CPU, rede, memória, discos; Gerenciamento: administração e controle; Aplicabilidade: aplicações voltadas para o cluster. (Seminário da Pós-graduaçao) 24 de Março de / 78

66 Cluster Medidas de Desempenho Vazão (throughput): taxa na qual os pedidos são atendidos pelo sistema (Seminário da Pós-graduaçao) 24 de Março de / 78

67 Cluster Medidas de Desempenho Vazão (throughput): taxa na qual os pedidos são atendidos pelo sistema Utilização: fração do tempo em que o recurso permanece ocupado (Seminário da Pós-graduaçao) 24 de Março de / 78

68 Cluster Medidas de Desempenho Vazão (throughput): taxa na qual os pedidos são atendidos pelo sistema Utilização: fração do tempo em que o recurso permanece ocupado Tempo de resposta (latência): tempo decorrido entre o pedido e o início/conclusão da realização do serviço (Seminário da Pós-graduaçao) 24 de Março de / 78

69 Cluster Medidas de Desempenho Vazão (throughput): taxa na qual os pedidos são atendidos pelo sistema Utilização: fração do tempo em que o recurso permanece ocupado Tempo de resposta (latência): tempo decorrido entre o pedido e o início/conclusão da realização do serviço Escalabilidade: um sistema é dito escalável quando a eficiência se mantém próxima a ideal com o aumento do número p de processadores aplicado à solução do problema cresce (Seminário da Pós-graduaçao) 24 de Março de / 78

70 Cluster Medidas de Desempenho T s : tempo de execução do programa sequencial (um processador) (Seminário da Pós-graduaçao) 24 de Março de / 78

71 Cluster Medidas de Desempenho T s : tempo de execução do programa sequencial (um processador) T p : tempo de execução do programa paralelo em p de processadores (Seminário da Pós-graduaçao) 24 de Março de / 78

72 Cluster Medidas de Desempenho T s : tempo de execução do programa sequencial (um processador) T p : tempo de execução do programa paralelo em p de processadores Speed-up ou ganho (S p ): razão entre T s e T p S p = T s T p (Seminário da Pós-graduaçao) 24 de Março de / 78

73 Cluster Medidas de Desempenho T s : tempo de execução do programa sequencial (um processador) T p : tempo de execução do programa paralelo em p de processadores Speed-up ou ganho (S p ): razão entre T s e T p Speed-up ideal ou linear: S p = p S p = T s T p (Seminário da Pós-graduaçao) 24 de Março de / 78

74 Cluster 300 Speed-up (Ganho de desempenho) Speed-up Linear Speed-up Sp p (Seminário da Pós-graduaçao) 24 de Março de / 78

75 Cluster Medidas de Desempenho Eficiência E p : razão entre o speed-up obtido, pelo número p de processadores E p = S p p (Seminário da Pós-graduaçao) 24 de Março de / 78

76 Cluster Medidas de Desempenho Eficiência E p : razão entre o speed-up obtido, pelo número p de processadores Eficiência ideal: E p = 1 E p = S p p (Seminário da Pós-graduaçao) 24 de Março de / 78

77 Cluster Eficiencia Eficiencia Ideal Eficiencia 1 Ep p (Seminário da Pós-graduaçao) 24 de Março de / 78

78 Cluster Métricas de Desempenho Paralelo GFLOP/S: bilhões (Giga) de operações de ponto flutuante por segundo (Seminário da Pós-graduaçao) 24 de Março de / 78

79 Cluster Métricas de Desempenho Paralelo GFLOP/S: bilhões (Giga) de operações de ponto flutuante por segundo Pico teório de desempenho: ocorre no caso em que a máquina não fizesse nada além de operações numéricas (Seminário da Pós-graduaçao) 24 de Março de / 78

80 Cluster Métricas de Desempenho Paralelo GFLOP/S: bilhões (Giga) de operações de ponto flutuante por segundo Pico teório de desempenho: ocorre no caso em que a máquina não fizesse nada além de operações numéricas Benchmarks: programas desenvolvidos para determinar as métricas de desempenho da máquinas. Exemplos: LINPACK, NASA-NPB (Seminário da Pós-graduaçao) 24 de Março de / 78

81 Cluster LINKPACK Benchmark Surgiu como pacote de solução de sistemas lineares (Ax = b) (Seminário da Pós-graduaçao) 24 de Março de / 78

82 Cluster LINKPACK Benchmark Surgiu como pacote de solução de sistemas lineares (Ax = b) Foi utilizado como benchmark inicialmente para predição de tempo de execução; (Seminário da Pós-graduaçao) 24 de Março de / 78

83 Cluster LINKPACK Benchmark Surgiu como pacote de solução de sistemas lineares (Ax = b) Foi utilizado como benchmark inicialmente para predição de tempo de execução; Relacionou-se o tempo de execução de 23 computadores para um problema de ordem 100 (LINPACK100) (Seminário da Pós-graduaçao) 24 de Março de / 78

84 Cluster LINKPACK Benchmark Surgiu como pacote de solução de sistemas lineares (Ax = b) Foi utilizado como benchmark inicialmente para predição de tempo de execução; Relacionou-se o tempo de execução de 23 computadores para um problema de ordem 100 (LINPACK100) Esta é a origem ranking mundial de supercomputadores TOP500 (Seminário da Pós-graduaçao) 24 de Março de / 78

85 Cluster LINKPACK Benchmark Surgiu como pacote de solução de sistemas lineares (Ax = b) Foi utilizado como benchmark inicialmente para predição de tempo de execução; Relacionou-se o tempo de execução de 23 computadores para um problema de ordem 100 (LINPACK100) Esta é a origem ranking mundial de supercomputadores TOP500 O TOP500 atualmente conta com dados de mais de 1300 sistemas de computação. (Seminário da Pós-graduaçao) 24 de Março de / 78

86 Cluster LINKPACK Benchmark Surgiu como pacote de solução de sistemas lineares (Ax = b) Foi utilizado como benchmark inicialmente para predição de tempo de execução; Relacionou-se o tempo de execução de 23 computadores para um problema de ordem 100 (LINPACK100) Esta é a origem ranking mundial de supercomputadores TOP500 O TOP500 atualmente conta com dados de mais de 1300 sistemas de computação. High Performance LINKPACK n n (HPL): (Seminário da Pós-graduaçao) 24 de Março de / 78

87 LINKPACK Benchmark Fatores que afetam o desempenho Tipo de aplicação; (Seminário da Pós-graduaçao) 24 de Março de / 78

88 LINKPACK Benchmark Fatores que afetam o desempenho Tipo de aplicação; Algoritmo; (Seminário da Pós-graduaçao) 24 de Março de / 78

89 LINKPACK Benchmark Fatores que afetam o desempenho Tipo de aplicação; Algoritmo; Tamanho do problema; (Seminário da Pós-graduaçao) 24 de Março de / 78

90 LINKPACK Benchmark Fatores que afetam o desempenho Tipo de aplicação; Algoritmo; Tamanho do problema; Nível da linguagem de programação; (Seminário da Pós-graduaçao) 24 de Março de / 78

91 LINKPACK Benchmark Fatores que afetam o desempenho Tipo de aplicação; Algoritmo; Tamanho do problema; Nível da linguagem de programação; Implementação; (Seminário da Pós-graduaçao) 24 de Março de / 78

92 LINKPACK Benchmark Fatores que afetam o desempenho Tipo de aplicação; Algoritmo; Tamanho do problema; Nível da linguagem de programação; Implementação; Esforço humano em otimizar o código; (Seminário da Pós-graduaçao) 24 de Março de / 78

93 LINKPACK Benchmark Fatores que afetam o desempenho Tipo de aplicação; Algoritmo; Tamanho do problema; Nível da linguagem de programação; Implementação; Esforço humano em otimizar o código; Sistema Operacional; (Seminário da Pós-graduaçao) 24 de Março de / 78

94 LINKPACK Benchmark Fatores que afetam o desempenho Tipo de aplicação; Algoritmo; Tamanho do problema; Nível da linguagem de programação; Implementação; Esforço humano em otimizar o código; Sistema Operacional; Hardware; (Seminário da Pós-graduaçao) 24 de Março de / 78

95 LINKPACK Benchmark Fatores que afetam o desempenho Tipo de aplicação; Algoritmo; Tamanho do problema; Nível da linguagem de programação; Implementação; Esforço humano em otimizar o código; Sistema Operacional; Hardware; Idade do compilador; (Seminário da Pós-graduaçao) 24 de Março de / 78

96 LINKPACK Benchmark Fatores que afetam o desempenho Tipo de aplicação; Algoritmo; Tamanho do problema; Nível da linguagem de programação; Implementação; Esforço humano em otimizar o código; Sistema Operacional; Hardware; Idade do compilador; Habilidade do compilador em gerar código otimizado; (Seminário da Pós-graduaçao) 24 de Março de / 78

97 LINKPACK Benchmark Fatores que afetam o desempenho Tipo de aplicação; Algoritmo; Tamanho do problema; Nível da linguagem de programação; Implementação; Esforço humano em otimizar o código; Sistema Operacional; Hardware; Idade do compilador; Habilidade do compilador em gerar código otimizado; Qualidade do núcleo de cálculo (BLAS otimizada); (Seminário da Pós-graduaçao) 24 de Março de / 78

98 Cluster Núcleo de cálculo do LINPACK BLAS (Basic Linear Algebra Subprograms): (Seminário da Pós-graduaçao) 24 de Março de / 78

99 Cluster Núcleo de cálculo do LINPACK BLAS (Basic Linear Algebra Subprograms): Nível 1: operações vetor-vetor (Seminário da Pós-graduaçao) 24 de Março de / 78

100 Cluster Núcleo de cálculo do LINPACK BLAS (Basic Linear Algebra Subprograms): Nível 1: operações vetor-vetor Nível 2: operações matriz-vetor (Seminário da Pós-graduaçao) 24 de Março de / 78

101 Cluster Núcleo de cálculo do LINPACK BLAS (Basic Linear Algebra Subprograms): Nível 1: operações vetor-vetor Nível 2: operações matriz-vetor Nível 3: operações matriz-matriz (Seminário da Pós-graduaçao) 24 de Março de / 78

102 Cluster Núcleo de cálculo do LINPACK BLAS (Basic Linear Algebra Subprograms): Nível 1: operações vetor-vetor Nível 2: operações matriz-vetor Nível 3: operações matriz-matriz Procurar utilizar BLAS otimizadas: (Seminário da Pós-graduaçao) 24 de Março de / 78

103 Cluster Núcleo de cálculo do LINPACK BLAS (Basic Linear Algebra Subprograms): Nível 1: operações vetor-vetor Nível 2: operações matriz-vetor Nível 3: operações matriz-matriz Procurar utilizar BLAS otimizadas: ATLAS: gerador gratuito de BLAS otimizada para qualquer sistema (Seminário da Pós-graduaçao) 24 de Março de / 78

104 Cluster Núcleo de cálculo do LINPACK BLAS (Basic Linear Algebra Subprograms): Nível 1: operações vetor-vetor Nível 2: operações matriz-vetor Nível 3: operações matriz-matriz Procurar utilizar BLAS otimizadas: ATLAS: gerador gratuito de BLAS otimizada para qualquer sistema Intel MKL (Intel Math Kernel Library) (Seminário da Pós-graduaçao) 24 de Março de / 78

105 Cluster Núcleo de cálculo do LINPACK BLAS (Basic Linear Algebra Subprograms): Nível 1: operações vetor-vetor Nível 2: operações matriz-vetor Nível 3: operações matriz-matriz Procurar utilizar BLAS otimizadas: ATLAS: gerador gratuito de BLAS otimizada para qualquer sistema Intel MKL (Intel Math Kernel Library) Goto BLAS (Seminário da Pós-graduaçao) 24 de Março de / 78

106 Cluster Em que consiste a lista TOP500 R max : Desempenho em Gflop/s para o maior problema executado; (Seminário da Pós-graduaçao) 24 de Março de / 78

107 Cluster Em que consiste a lista TOP500 R max : Desempenho em Gflop/s para o maior problema executado; N max : A dimensão do maior problema executado (Seminário da Pós-graduaçao) 24 de Março de / 78

108 Cluster Em que consiste a lista TOP500 R max : Desempenho em Gflop/s para o maior problema executado; N max : A dimensão do maior problema executado N 1/2 : O tamanho do problema onde foi alcançado metade de Rmax; (Seminário da Pós-graduaçao) 24 de Março de / 78

109 Cluster Em que consiste a lista TOP500 R max : Desempenho em Gflop/s para o maior problema executado; N max : A dimensão do maior problema executado N 1/2 : O tamanho do problema onde foi alcançado metade de Rmax; R peak : O pico teórico de desempenho da máquina (Seminário da Pós-graduaçao) 24 de Março de / 78

110 Desempenho máximo teórico R peak Intel Xeon E (Sandy Bridge): Possui 8 cores (#cores = 8) (Seminário da Pós-graduaçao) 24 de Março de / 78

111 Desempenho máximo teórico R peak Intel Xeon E (Sandy Bridge): Possui 8 cores (#cores = 8) Frequência de clock de 2.7GHz (freq = 2.7GHz); (Seminário da Pós-graduaçao) 24 de Março de / 78

112 Desempenho máximo teórico R peak Intel Xeon E (Sandy Bridge): Possui 8 cores (#cores = 8) Frequência de clock de 2.7GHz (freq = 2.7GHz); Executando 8 operações de ponto flutuante de precisão dupla por ciclo de clock (#flop/cycle = 8); (Seminário da Pós-graduaçao) 24 de Março de / 78

113 Desempenho máximo teórico R peak Intel Xeon E (Sandy Bridge): Possui 8 cores (#cores = 8) Frequência de clock de 2.7GHz (freq = 2.7GHz); Executando 8 operações de ponto flutuante de precisão dupla por ciclo de clock (#flop/cycle = 8); FLOPS #cores freq flop/cycle (Seminário da Pós-graduaçao) 24 de Março de / 78

114 Desempenho máximo teórico R peak Intel Xeon E (Sandy Bridge): Possui 8 cores (#cores = 8) Frequência de clock de 2.7GHz (freq = 2.7GHz); Executando 8 operações de ponto flutuante de precisão dupla por ciclo de clock (#flop/cycle = 8); FLOPS #cores freq flop/cycle FLOPS 8 2.7GHz 8 (Seminário da Pós-graduaçao) 24 de Março de / 78

115 Desempenho máximo teórico R peak Intel Xeon E (Sandy Bridge): Possui 8 cores (#cores = 8) Frequência de clock de 2.7GHz (freq = 2.7GHz); Executando 8 operações de ponto flutuante de precisão dupla por ciclo de clock (#flop/cycle = 8); FLOPS #cores freq flop/cycle FLOPS 8 2.7GHz 8 FLOPS 172.8Gflop/s (Seminário da Pós-graduaçao) 24 de Março de / 78

116 Desempenho máximo teórico R peak Intel Xeon E (Sandy Bridge): Possui 8 cores (#cores = 8) Frequência de clock de 2.7GHz (freq = 2.7GHz); Executando 8 operações de ponto flutuante de precisão dupla por ciclo de clock (#flop/cycle = 8); FLOPS #cores freq flop/cycle FLOPS 8 2.7GHz 8 FLOPS 172.8Gflop/s Se integrarmos nós com esta configuração (Seminário da Pós-graduaçao) 24 de Março de / 78

117 Desempenho máximo teórico R peak Intel Xeon E (Sandy Bridge): Possui 8 cores (#cores = 8) Frequência de clock de 2.7GHz (freq = 2.7GHz); Executando 8 operações de ponto flutuante de precisão dupla por ciclo de clock (#flop/cycle = 8); FLOPS #cores freq flop/cycle FLOPS 8 2.7GHz 8 FLOPS 172.8Gflop/s Se integrarmos nós com esta configuração Temos então um cluster com GFlop/s (Seminário da Pós-graduaçao) 24 de Março de / 78

118 Desempenho máximo teórico R peak Intel Xeon E (Sandy Bridge): Possui 8 cores (#cores = 8) Frequência de clock de 2.7GHz (freq = 2.7GHz); Executando 8 operações de ponto flutuante de precisão dupla por ciclo de clock (#flop/cycle = 8); FLOPS #cores freq flop/cycle FLOPS 8 2.7GHz 8 FLOPS 172.8Gflop/s Se integrarmos nós com esta configuração Temos então um cluster com GFlop/s ou TFlop/s (Seminário da Pós-graduaçao) 24 de Março de / 78

119 Desempenho máximo teórico R peak Intel Xeon E (Sandy Bridge): Possui 8 cores (#cores = 8) Frequência de clock de 2.7GHz (freq = 2.7GHz); Executando 8 operações de ponto flutuante de precisão dupla por ciclo de clock (#flop/cycle = 8); FLOPS #cores freq flop/cycle FLOPS 8 2.7GHz 8 FLOPS 172.8Gflop/s Se integrarmos nós com esta configuração Temos então um cluster com GFlop/s ou TFlop/s ou 3.2 PFlop/s de pico teórico (Seminário da Pós-graduaçao) 24 de Março de / 78

120 Desempenho máximo teórico R peak Intel Xeon E (Sandy Bridge): Possui 8 cores (#cores = 8) Frequência de clock de 2.7GHz (freq = 2.7GHz); Executando 8 operações de ponto flutuante de precisão dupla por ciclo de clock (#flop/cycle = 8); FLOPS #cores freq flop/cycle FLOPS 8 2.7GHz 8 FLOPS 172.8Gflop/s Se integrarmos nós com esta configuração Temos então um cluster com GFlop/s ou TFlop/s ou 3.2 PFlop/s de pico teórico Esta é a configuração do supercomputador número 10 no TOP500: SuperMUC (Alemanha) (Seminário da Pós-graduaçao) 24 de Março de / 78

121 TOP500: #10 SuperMUC (Alemanha) Configuração cores distribuídos em nós contendo CPU Intel Xeon E Core R max =2.9 PFlop/s R peak =3.2 PFlop/s (Seminário da Pós-graduaçao) 24 de Março de / 78

122 TOP500: #2 TITAN (EUA) Configuração cores distribuídos em nós contendo CPU AMD Opteron Core e em GPU Nvidia K20 R max =17.6 PFlop/s R peak =27.1 PFlop/s (Seminário da Pós-graduaçao) 24 de Março de / 78

123 TOP500: #1 Tianhe-2 (China) Configuração cores distribuídos em nós contendo CPU Intel Xeon E Core e em coprocessador Intel Xeon Phi 31S1P R max =33.9 PFlop/s R peak =54.9 PFlop/s (Seminário da Pós-graduaçao) 24 de Março de / 78

124 TOP500 Principais Fabricantes (Manufacturer/Vendors): (Seminário da Pós-graduaçao) 24 de Março de / 78

125 TOP500 Principais Fabricantes (Manufacturer/Vendors): (Seminário da Pós-graduaçao) 24 de Março de / 78

126 TOP500: Arquiteturas (Seminário da Pós-graduaçao) 24 de Março de / 78

127 TOP500: Arquiteturas CLUSTERS: 84.60% MPP : 15.40% (Seminário da Pós-graduaçao) 24 de Março de / 78

128 Arquitetura de Computadores Paralelos Symmetric Multi-Processing (SMP) Massively Parallel Processing (MPP) Cluster (Seminário da Pós-graduaçao) 24 de Março de / 78

129 Brasil no TOP500 Perspectivas (Seminário da Pós-graduaçao) 24 de Março de / 78

130 Brasil no TOP500 Perspectivas O LNCC está em negociação para receber um cluster da Bull com cerca de 2 PFlop/s de R peak (Seminário da Pós-graduaçao) 24 de Março de / 78

131 Brasil no TOP500 Perspectivas O LNCC está em negociação para receber um cluster da Bull com cerca de 2 PFlop/s de R peak Potencialmente, este sistema estaria hoje entre os 20 primeiros no TOP500 (R max ) (Seminário da Pós-graduaçao) 24 de Março de / 78

132 Brasil no TOP500 Perspectivas O LNCC está em negociação para receber um cluster da Bull com cerca de 2 PFlop/s de R peak Potencialmente, este sistema estaria hoje entre os 20 primeiros no TOP500 (R max ) Centro de Pesquisa em HPC da Bull a ser instalado em Petrópolis-RJ (Seminário da Pós-graduaçao) 24 de Março de / 78

134 Clusters no LNCC Nome #cores #cores R peak RAM HD CPU(nós) GPU(nós) TFlop/s TBytes TBytes Sun Blade X (30) SGI Altix XE (30) 17152(11) SGI Altix ICE (25) SGI Altix XE (94) 10752(12) 12.0 N/D 47 Bull bullx 1392(100) 3584(4) (Seminário da Pós-graduaçao) 24 de Março de / 78

135 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Nome CPU GPU R peak RAM HD #cores(nós) #cores(nós) TFlop/s TBytes TBytes Sun Blade X (72) SGI Altix XE (30) 17152(11) SGI Altix ICE (25) SGI Altix XE (94) 10752(12) 12.0 N/D 47 Bull bullx 1392(100) 3584(4) (Seminário da Pós-graduaçao) 24 de Março de / 78

136 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE SunHPC (Seminário da Pós-graduaçao) 24 de Março de / 78

137 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE - Sistema Operacional: Centos 5.5 SunHPC (Seminário da Pós-graduaçao) 24 de Março de / 78

138 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE - Sistema Operacional: Centos 5.5 SunHPC - Sistema Operacional: Centos 5.5 (Seminário da Pós-graduaçao) 24 de Março de / 78

139 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE - Sistema Operacional: Centos Gerenciador de Recursos: SGE 6.2 SunHPC - Sistema Operacional: Centos 5.5 (Seminário da Pós-graduaçao) 24 de Março de / 78

140 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE - Sistema Operacional: Centos Gerenciador de Recursos: SGE 6.2 SunHPC - Sistema Operacional: Centos Gerenciador de Recursos: SGE 6.2 (Seminário da Pós-graduaçao) 24 de Março de / 78

141 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE - Sistema Operacional: Centos Gerenciador de Recursos: SGE Rede de Interconexão: Infiniband; SunHPC - Sistema Operacional: Centos Gerenciador de Recursos: SGE 6.2 (Seminário da Pós-graduaçao) 24 de Março de / 78

142 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE - Sistema Operacional: Centos Gerenciador de Recursos: SGE Rede de Interconexão: Infiniband; SunHPC - Sistema Operacional: Centos Gerenciador de Recursos: SGE Rede de Interconexão: Infiniband; (Seminário da Pós-graduaçao) 24 de Março de / 78

143 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE - Sistema Operacional: Centos Gerenciador de Recursos: SGE Rede de Interconexão: Infiniband; - SunHPC - Sistema Operacional: Centos Gerenciador de Recursos: SGE Rede de Interconexão: Infiniband; (Seminário da Pós-graduaçao) 24 de Março de / 78

144 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE - Sistema Operacional: Centos Gerenciador de Recursos: SGE Rede de Interconexão: Infiniband; - SunHPC - Sistema Operacional: Centos Gerenciador de Recursos: SGE Rede de Interconexão: Infiniband; - (Seminário da Pós-graduaçao) 24 de Março de / 78

145 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE SunHPC (Seminário da Pós-graduaçao) 24 de Março de / 78

146 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE - é formado por 30 nós; SunHPC (Seminário da Pós-graduaçao) 24 de Março de / 78

147 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE - é formado por 30 nós; SunHPC - é formado por 72 nós; (Seminário da Pós-graduaçao) 24 de Março de / 78

148 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE - é formado por 30 nós; - os nós possuem até 16 núcleos computacionais; SunHPC - é formado por 72 nós; (Seminário da Pós-graduaçao) 24 de Março de / 78

149 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE - é formado por 30 nós; - os nós possuem até 16 núcleos computacionais; SunHPC - é formado por 72 nós; - os nós possuem 2 Intel Xeon E GHz Quad Core; (Seminário da Pós-graduaçao) 24 de Março de / 78

150 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE - é formado por 30 nós; - os nós possuem até 16 núcleos computacionais; - 11 desses nós possuem também GPUs; SunHPC - é formado por 72 nós; - os nós possuem 2 Intel Xeon E GHz Quad Core; (Seminário da Pós-graduaçao) 24 de Março de / 78

151 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE - é formado por 30 nós; - os nós possuem até 16 núcleos computacionais; - 11 desses nós possuem também GPUs; SunHPC - é formado por 72 nós; - os nós possuem 2 Intel Xeon E GHz Quad Core; - nenhum nó possui GPU; (Seminário da Pós-graduaçao) 24 de Março de / 78

152 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE - é formado por 30 nós; - os nós possuem até 16 núcleos computacionais; - 11 desses nós possuem também GPUs; - R peak =16.2 TFlop/s SunHPC - é formado por 72 nós; - os nós possuem 2 Intel Xeon E GHz Quad Core; - nenhum nó possui GPU; (Seminário da Pós-graduaçao) 24 de Março de / 78

153 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE - é formado por 30 nós; - os nós possuem até 16 núcleos computacionais; - 11 desses nós possuem também GPUs; - R peak =16.2 TFlop/s SunHPC - é formado por 72 nós; - os nós possuem 2 Intel Xeon E GHz Quad Core; - nenhum nó possui GPU; - R peak =6.5 TFlop/s (Seminário da Pós-graduaçao) 24 de Março de / 78

154 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE - 30 nós; (Seminário da Pós-graduaçao) 24 de Março de / 78

155 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE - 30 nós; - 19 nós possuem 2 Intel Xeon E GHz Quad-Core = 152 cores; (Seminário da Pós-graduaçao) 24 de Março de / 78

156 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE - 30 nós; - 19 nós possuem 2 Intel Xeon E GHz Quad-Core = 152 cores; - 6 nós possuem 2 Intel Xeon X GHz Hexa-Core = 72 cores; (Seminário da Pós-graduaçao) 24 de Março de / 78

157 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE - 30 nós; - 19 nós possuem 2 Intel Xeon E GHz Quad-Core = 152 cores; - 6 nós possuem 2 Intel Xeon X GHz Hexa-Core = 72 cores; - 4 nós possuem 2 Intel Xeon E GHz Octo-Core = 64 cores; (Seminário da Pós-graduaçao) 24 de Março de / 78

158 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE - 30 nós; - 19 nós possuem 2 Intel Xeon E GHz Quad-Core = 152 cores; - 6 nós possuem 2 Intel Xeon X GHz Hexa-Core = 72 cores; - 4 nós possuem 2 Intel Xeon E GHz Octo-Core = 64 cores; - CPU cores: 288; (Seminário da Pós-graduaçao) 24 de Março de / 78

159 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE - 30 nós; - 19 nós possuem 2 Intel Xeon E GHz Quad-Core = 152 cores; - 6 nós possuem 2 Intel Xeon X GHz Hexa-Core = 72 cores; - 4 nós possuem 2 Intel Xeon E GHz Octo-Core = 64 cores; - CPU cores: 288; - 6 nós 2 Tesla C cores = 5376 cores; (Seminário da Pós-graduaçao) 24 de Março de / 78

160 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE - 30 nós; - 19 nós possuem 2 Intel Xeon E GHz Quad-Core = 152 cores; - 6 nós possuem 2 Intel Xeon X GHz Hexa-Core = 72 cores; - 4 nós possuem 2 Intel Xeon E GHz Octo-Core = 64 cores; - CPU cores: 288; - 6 nós 2 Tesla C cores = 5376 cores; - 1 nó 4 Tesla C cores = 1792 cores; (Seminário da Pós-graduaçao) 24 de Março de / 78

161 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE - 30 nós; - 19 nós possuem 2 Intel Xeon E GHz Quad-Core = 152 cores; - 6 nós possuem 2 Intel Xeon X GHz Hexa-Core = 72 cores; - 4 nós possuem 2 Intel Xeon E GHz Octo-Core = 64 cores; - CPU cores: 288; - 6 nós 2 Tesla C cores = 5376 cores; - 1 nó 4 Tesla C cores = 1792 cores; - 4 nós 1 Tesla K20m 2496 cores = 9984 cores; (Seminário da Pós-graduaçao) 24 de Março de / 78

162 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE - 30 nós; - 19 nós possuem 2 Intel Xeon E GHz Quad-Core = 152 cores; - 6 nós possuem 2 Intel Xeon X GHz Hexa-Core = 72 cores; - 4 nós possuem 2 Intel Xeon E GHz Octo-Core = 64 cores; - CPU cores: 288; - 6 nós 2 Tesla C cores = 5376 cores; - 1 nó 4 Tesla C cores = 1792 cores; - 4 nós 1 Tesla K20m 2496 cores = 9984 cores; - GPU cores: (Seminário da Pós-graduaçao) 24 de Março de / 78

163 Arquitetura das CPUs (Seminário da Pós-graduaçao) 24 de Março de / 78

164 Arquitetura das CPUs (cont.) Sun Blade X6250: 2 Intel Xeon E5440 Quad-Core Saida da aplicacao de analise de desempenho LIKWID: $ likwid-topology -g Socket 0: kB 32kB 32kB 32kB MB 6MB Socket 1: kB 32kB 32kB 32kB MB 6MB (Seminário da Pós-graduaçao) 24 de Março de / 78

166 Arquitetura das CPUs (cont.) SGI Altix XE 340 (node23): 2 Intel Xeon E5520 Quad Core Socket 0: kB 32kB 32kB 32kB kB 256kB 256kB 256kB MB Socket 1: kB 32kB 32kB 32kB kB 256kB 256kB 256kB MB (Seminário da Pós-graduaçao) 24 de Março de / 78

168 Arquitetura das CPUs (cont.) SGI Altix XE 340 (node41): 2 Intel Xeon E Octo-Core Socket 0: kB 32kB 32kB 32kB 32kB 32kB 32kB 32kB kB 256kB 256kB 256kB 256kB 256kB 256kB 256kB MB Socket 1: kB 32kB 32kB 32kB 32kB 32kB 32kB 32kB kB 256kB 256kB 256kB 256kB 256kB 256kB 256kB MB (Seminário da Pós-graduaçao) 24 de Março de / 78

Exibir mais