Ambientes de computação de alto desempenho no LNCC

Tamanho: px
Começar a partir da página:

Download "Ambientes de computação de alto desempenho no LNCC"

Transcrição

1 Ambientes de computação de alto desempenho no LNCC Roberto Pinto Souto MCTI/LNCC/CSR - CENAPAD-RJ rpsouto@lncc.br 24 de Março de 2014 (Seminário da Pós-graduaçao) 24 de Março de / 78

2 Roteiro 1 Introdução 2 Recursos de Hardware 3 Recursos de Software 4 Considerações Finais (Seminário da Pós-graduaçao) 24 de Março de / 78

3 Roteiro 1 Introdução 2 Recursos de Hardware 3 Recursos de Software 4 Considerações Finais (Seminário da Pós-graduaçao) 24 de Março de / 78

4 Introdução Apresentação Diversas aplicações científicas podem executar um número tão elevado de operações que, a fim de que sejam finalizadas em um tempo factível, se faz necessária a utilização de máquinas com cada vez maior poder de processamento. Notadamente, estas são máquinas paralelas que possuem um determinado número de núcleos computacionais ( cores ), distribuídos em processadores convencionais (CPUs) e aceleradores (GPUs). É importante, portanto, o usuário que desejar reduzir o tempo de processamento de uma aplicação que roda sequencialmente, ter o conhecimento das diferentes opções de ferramentas computacionais que dão suporte à uma execução paralela. O LNCC dispõe de máquinas paralelas que contém compiladores, bibliotecas e ferramentas que possibilitam ao usuário obter desempenho paralelo dos códigos científicos utilizados. Neste seminário será dada uma visão geral destes recursos e de serviços em computação de alto desempenho disponibilizados no LNCC. (Seminário da Pós-graduaçao) 24 de Março de / 78

5 Introdução Apresentação Diversas aplicações científicas podem executar um número tão elevado de operações que, a fim de que sejam finalizadas em um tempo factível, se faz necessária a utilização de máquinas com cada vez maior poder de processamento. Notadamente, estas são máquinas paralelas que possuem um determinado número de núcleos computacionais ( cores ), distribuídos em processadores convencionais (CPUs) e aceleradores (GPUs). É importante, portanto, o usuário que desejar reduzir o tempo de processamento de uma aplicação que roda sequencialmente, ter o conhecimento das diferentes opções de ferramentas computacionais que dão suporte à uma execução paralela. O LNCC dispõe de máquinas paralelas que contém compiladores, bibliotecas e ferramentas que possibilitam ao usuário obter desempenho paralelo dos códigos científicos utilizados. Neste seminário será dada uma visão geral destes recursos e de serviços em computação de alto desempenho disponibilizados no LNCC. (Seminário da Pós-graduaçao) 24 de Março de / 78

6 Introdução Apresentação Diversas aplicações científicas podem executar um número tão elevado de operações que, a fim de que sejam finalizadas em um tempo factível, se faz necessária a utilização de máquinas com cada vez maior poder de processamento. Notadamente, estas são máquinas paralelas que possuem um determinado número de núcleos computacionais ( cores ), distribuídos em processadores convencionais (CPUs) e aceleradores (GPUs). É importante, portanto, o usuário que desejar reduzir o tempo de processamento de uma aplicação que roda sequencialmente, ter o conhecimento das diferentes opções de ferramentas computacionais que dão suporte à uma execução paralela. O LNCC dispõe de máquinas paralelas que contém compiladores, bibliotecas e ferramentas que possibilitam ao usuário obter desempenho paralelo dos códigos científicos utilizados. Neste seminário será dada uma visão geral destes recursos e de serviços em computação de alto desempenho disponibilizados no LNCC. (Seminário da Pós-graduaçao) 24 de Março de / 78

7 Introdução Apresentação Diversas aplicações científicas podem executar um número tão elevado de operações que, a fim de que sejam finalizadas em um tempo factível, se faz necessária a utilização de máquinas com cada vez maior poder de processamento. Notadamente, estas são máquinas paralelas que possuem um determinado número de núcleos computacionais ( cores ), distribuídos em processadores convencionais (CPUs) e aceleradores (GPUs). É importante, portanto, o usuário que desejar reduzir o tempo de processamento de uma aplicação que roda sequencialmente, ter o conhecimento das diferentes opções de ferramentas computacionais que dão suporte à uma execução paralela. O LNCC dispõe de máquinas paralelas que contém compiladores, bibliotecas e ferramentas que possibilitam ao usuário obter desempenho paralelo dos códigos científicos utilizados. Neste seminário será dada uma visão geral destes recursos e de serviços em computação de alto desempenho disponibilizados no LNCC. (Seminário da Pós-graduaçao) 24 de Março de / 78

8 Introdução Apresentação Diversas aplicações científicas podem executar um número tão elevado de operações que, a fim de que sejam finalizadas em um tempo factível, se faz necessária a utilização de máquinas com cada vez maior poder de processamento. Notadamente, estas são máquinas paralelas que possuem um determinado número de núcleos computacionais ( cores ), distribuídos em processadores convencionais (CPUs) e aceleradores (GPUs). É importante, portanto, o usuário que desejar reduzir o tempo de processamento de uma aplicação que roda sequencialmente, ter o conhecimento das diferentes opções de ferramentas computacionais que dão suporte à uma execução paralela. O LNCC dispõe de máquinas paralelas que contém compiladores, bibliotecas e ferramentas que possibilitam ao usuário obter desempenho paralelo dos códigos científicos utilizados. Neste seminário será dada uma visão geral destes recursos e de serviços em computação de alto desempenho disponibilizados no LNCC. (Seminário da Pós-graduaçao) 24 de Março de / 78

9 Introdução Apresentação Diversas aplicações científicas podem executar um número tão elevado de operações que, a fim de que sejam finalizadas em um tempo factível, se faz necessária a utilização de máquinas com cada vez maior poder de processamento. Notadamente, estas são máquinas paralelas que possuem um determinado número de núcleos computacionais ( cores ), distribuídos em processadores convencionais (CPUs) e aceleradores (GPUs). É importante, portanto, o usuário que desejar reduzir o tempo de processamento de uma aplicação que roda sequencialmente, ter o conhecimento das diferentes opções de ferramentas computacionais que dão suporte à uma execução paralela. O LNCC dispõe de máquinas paralelas que contém compiladores, bibliotecas e ferramentas que possibilitam ao usuário obter desempenho paralelo dos códigos científicos utilizados. Neste seminário será dada uma visão geral destes recursos e de serviços em computação de alto desempenho disponibilizados no LNCC. (Seminário da Pós-graduaçao) 24 de Março de / 78

10 Introdução Apresentação Diversas aplicações científicas podem executar um número tão elevado de operações que, a fim de que sejam finalizadas em um tempo factível, se faz necessária a utilização de máquinas com cada vez maior poder de processamento. Notadamente, estas são máquinas paralelas que possuem um determinado número de núcleos computacionais ( cores ), distribuídos em processadores convencionais (CPUs) e aceleradores (GPUs). É importante, portanto, o usuário que desejar reduzir o tempo de processamento de uma aplicação que roda sequencialmente, ter o conhecimento das diferentes opções de ferramentas computacionais que dão suporte à uma execução paralela. O LNCC dispõe de máquinas paralelas que contém compiladores, bibliotecas e ferramentas que possibilitam ao usuário obter desempenho paralelo dos códigos científicos utilizados. Neste seminário será dada uma visão geral destes recursos e de serviços em computação de alto desempenho disponibilizados no LNCC. (Seminário da Pós-graduaçao) 24 de Março de / 78

11 Introdução Apresentação Diversas aplicações científicas podem executar um número tão elevado de operações que, a fim de que sejam finalizadas em um tempo factível, se faz necessária a utilização de máquinas com cada vez maior poder de processamento. Notadamente, estas são máquinas paralelas que possuem um determinado número de núcleos computacionais ( cores ), distribuídos em processadores convencionais (CPUs) e aceleradores (GPUs). É importante, portanto, o usuário que desejar reduzir o tempo de processamento de uma aplicação que roda sequencialmente, ter o conhecimento das diferentes opções de ferramentas computacionais que dão suporte à uma execução paralela. O LNCC dispõe de máquinas paralelas que contém compiladores, bibliotecas e ferramentas que possibilitam ao usuário obter desempenho paralelo dos códigos científicos utilizados. Neste seminário será dada uma visão geral destes recursos e de serviços em computação de alto desempenho disponibilizados no LNCC. (Seminário da Pós-graduaçao) 24 de Março de / 78

12 Computação de Alto Desempenho (Seminário da Pós-graduaçao) 24 de Março de / 78

13 Computação de Alto Desempenho High Performance Computing (HPC) (Seminário da Pós-graduaçao) 24 de Março de / 78

14 Computação de Alto Desempenho High Performance Computing (HPC) Definition High Performance Computing most generally refers to the practice of aggregating computing power in a way that delivers much higher performance than one could get out of a typical desktop computer or workstation in order to solve large problems in science, engineering, or business. FONTE: (Seminário da Pós-graduaçao) 24 de Março de / 78

15 Computação de Alto Desempenho High Performance Computing (HPC) Definition High Performance Computing most generally refers to the practice of aggregating computing power in a way that delivers much higher performance than one could get out of a typical desktop computer or workstation in order to solve large problems in science, engineering, or business. FONTE: Definição - tradução livre Computação de Alto Desempenho, de um modo geral, se refere à prática de agregar poder de processamento a fim de proporcionar um desempenho muito maior do que se poderia obter de um desktop ou estação de trabalho, para resolver grandes problemas em ciência, em engenharia ou comerciais. FONTE: (Seminário da Pós-graduaçao) 24 de Março de / 78

16 Instituições que demandam poder computacional Comerciais Ramo financeiro; Seguradoras; Sistemas industriais; Científicas Universidades; Centros de pesquisa; Indústrias aeronáutica, automobilística, de energia, entre outras; (Seminário da Pós-graduaçao) 24 de Março de / 78

17 Problemas de Grande Porte FONTE: (Seminário da Pós-graduaçao) 24 de Março de / 78

18 Simulações de Grande Porte Aplicações Científicas: (Seminário da Pós-graduaçao) 24 de Março de / 78

19 Simulações de Grande Porte Aplicações Científicas: Atmosfera, ambiental Física: aplicada, nuclear, da partícula, matéria condensada, fusão, fotônica Biociência, Biotecnologia, Genética Química Geologia Engenharia Mecânica: indústria aeroespacial, indústria automobilística, energia Engenharia Elétrica: projeto de circuitos, microeletrôncia Ciência da Computação, Matemática Defesa, material bélico (Seminário da Pós-graduaçao) 24 de Março de / 78

20 Aplicações Científicas no LNCC Previsão do Tempo Meta-heurísticas Massivamente Paralelas Métodos de Elementos Finitos Multi-escalas Predição de Estruturas de Proteínas Simulação Paralela de Computação Quântica Simulação em Reservatórios de Petróleo Bionformática Workflow Científico para Modelagem de Biodiversidade Gerenciamento e Mineração de Dados em Ciência Simulação Computacional do Sistema Cardiovascular Humano (Seminário da Pós-graduaçao) 24 de Março de / 78

21 Processamento Paralelo Programa sequencial ou serial (Seminário da Pós-graduaçao) 24 de Março de / 78

22 Processamento Paralelo Programa sequencial ou serial Programa Paralelo (Seminário da Pós-graduaçao) 24 de Março de / 78

23 Arquitetura de Computadores Paralelos Memória compartilhada Memória Distribuída (Seminário da Pós-graduaçao) 24 de Março de / 78

24 Arquitetura de Computadores Paralelos Memória compartilhada Memória Distribuída Uniform Memory Access (UMA) (Seminário da Pós-graduaçao) 24 de Março de / 78

25 Arquitetura de Computadores Paralelos Memória compartilhada Memória Distribuída Uniform Memory Access (UMA) Non-Uniform Memory Access (NUMA) (Seminário da Pós-graduaçao) 24 de Março de / 78

26 Arquitetura de Computadores Paralelos Memória compartilhada Memória Distribuída Uniform Memory Access (UMA) Non-Uniform Memory Access (NUMA) (Seminário da Pós-graduaçao) 24 de Março de / 78

27 Arquitetura de Computadores Paralelos Memória compartilhada Memória Distribuída Arquitetura Híbrida Uniform Memory Access (UMA) Non-Uniform Memory Access (NUMA) (Seminário da Pós-graduaçao) 24 de Março de / 78

28 Arquitetura de Computadores Paralelos Memória compartilhada Memória Distribuída Arquitetura Híbrida Uniform Memory Access (UMA) Non-Uniform Memory Access (NUMA) (Seminário da Pós-graduaçao) 24 de Março de / 78

29 Arquitetura de Computadores Paralelos Symmetric Multi-Processing (SMP) (Seminário da Pós-graduaçao) 24 de Março de / 78

30 Arquitetura de Computadores Paralelos Symmetric Multi-Processing (SMP) Massively Parallel Processing (MPP) (Seminário da Pós-graduaçao) 24 de Março de / 78

31 Arquitetura de Computadores Paralelos Symmetric Multi-Processing (SMP) Massively Parallel Processing (MPP) Cluster (Seminário da Pós-graduaçao) 24 de Março de / 78

32 Ma quinas paralelas Cluster (Semina rio da Po s-graduac ao) 24 de Marc o de / 78

33 Ma quinas paralelas Cluster computadores agregados por uma rede de interconexa o; (Semina rio da Po s-graduac ao) 24 de Marc o de / 78

34 Ma quinas paralelas Cluster computadores agregados por uma rede de interconexa o; (Semina rio da Po s-graduac ao) 24 de Marc o de / 78

35 Ma quinas paralelas Cluster computadores agregados por uma rede de interconexa o; ma quina de memo ria distribuı da; (Semina rio da Po s-graduac ao) 24 de Marc o de / 78

36 Máquinas paralelas Cluster computadores agregados por uma rede de interconexão; máquina de memória distribuída; (Seminário da Pós-graduaçao) 24 de Março de / 78

37 Cluster Propriedades Boa relação Custo/Desempenho (Seminário da Pós-graduaçao) 24 de Março de / 78

38 Cluster Propriedades Boa relação Custo/Desempenho Configuração ajustável (Seminário da Pós-graduaçao) 24 de Março de / 78

39 Cluster Propriedades Boa relação Custo/Desempenho Configuração ajustável Escalável (Seminário da Pós-graduaçao) 24 de Março de / 78

40 Cluster Propriedades Boa relação Custo/Desempenho Configuração ajustável Escalável Rápida incorporação de novas tecnologias (Seminário da Pós-graduaçao) 24 de Março de / 78

41 Arquitetura de um Cluster (Seminário da Pós-graduaçao) 24 de Março de / 78

42 Arquitetura de um Cluster Rede de Alta Velocidade / Rede de Interconexão (Seminário da Pós-graduaçao) 24 de Março de / 78

43 Arquitetura de um Cluster Rede de Alta Velocidade / Rede de Interconexão Padrões: Gigabit Ethernet (até 100 Gb/s), Infiniband (até 300 Gb/s) e Proprietárias (Seminário da Pós-graduaçao) 24 de Março de / 78

44 Arquitetura de um Cluster PC / NÓS de Processamento (Seminário da Pós-graduaçao) 24 de Março de / 78

45 Arquitetura de um Cluster PC / NÓS de Processamento Arquiteturas: multi-core (CPUs) e many-core (coprocessadores) (Seminário da Pós-graduaçao) 24 de Março de / 78

46 Arquitetura de um Cluster PC / NÓS de Processamento Arquiteturas: multi-core (CPUs) e many-core (coprocessadores) multi-core: Intel Xeon, AMD Opteron, IBM Power (Seminário da Pós-graduaçao) 24 de Março de / 78

47 Arquitetura de um Cluster PC / NÓS de Processamento Arquiteturas: multi-core (CPUs) e many-core (coprocessadores) multi-core: Intel Xeon, AMD Opteron, IBM Power many-core: Intel Xeon Phi, AMD ATI Radeon, Nvidia Tesla (Seminário da Pós-graduaçao) 24 de Março de / 78

48 Arquitetura de um Cluster Cluster Middleware (Seminário da Pós-graduaçao) 24 de Março de / 78

49 Arquitetura de um Cluster Cluster Middleware Sistema Operacional: CentOS, Suse, Debian, etc... (Seminário da Pós-graduaçao) 24 de Março de / 78

50 Arquitetura de um Cluster Cluster Middleware Sistema Operacional: CentOS, Suse, Debian, etc... Sistema de Gerenciamento de Recursos: PBS/Torque, SGE, etc... (Seminário da Pós-graduaçao) 24 de Março de / 78

51 Arquitetura de um Cluster Ambiente de Programação Paralela (Seminário da Pós-graduaçao) 24 de Março de / 78

52 Arquitetura de um Cluster Ambiente de Programação Paralela Entre os nós / memória distribuída: MPI (Message Passing Interface) (Seminário da Pós-graduaçao) 24 de Março de / 78

53 Arquitetura de um Cluster Ambiente de Programação Paralela Entre os nós / memória distribuída: MPI (Message Passing Interface) Dentro do nó / memória compartilhada: pthreads, OpenMP, OpenACC, OpenCL (Seminário da Pós-graduaçao) 24 de Março de / 78

54 Arquitetura de um Cluster Ambiente de Programação Paralela Entre os nós / memória distribuída: MPI (Message Passing Interface) OpenSHMEM*, UPC (Unified Parallel C)*, CAF (Co-Array Fortran)* Dentro do nó / memória compartilhada: pthreads, OpenMP, OpenACC, OpenCL (Seminário da Pós-graduaçao) 24 de Março de / 78

55 Arquitetura de um Cluster Ambiente de Programação Paralela Entre os nós / memória distribuída: MPI (Message Passing Interface) OpenSHMEM*, UPC (Unified Parallel C)*, CAF (Co-Array Fortran)* Dentro do nó / memória compartilhada: pthreads, OpenMP, OpenACC, OpenCL, CilkPlus*, TBB*, CUDA* (Seminário da Pós-graduaçao) 24 de Março de / 78

56 Arquitetura de um Cluster Ambiente de Programação Paralela Entre os nós / memória distribuída: MPI (Message Passing Interface) *PGAS (Partioned Global Address Space) Dentro do nó / memória compartilhada: pthreads, OpenMP, OpenACC, OpenCL, * Proprietárias (Seminário da Pós-graduaçao) 24 de Março de / 78

57 Arquitetura de um Cluster Ambiente de Programação Paralela Compiladores (produção): GNU, Intel, PGI, Cray (Seminário da Pós-graduaçao) 24 de Março de / 78

58 Arquitetura de um Cluster Ambiente de Programação Paralela Compiladores (produção): GNU, Intel, PGI, Cray Compiladores (pesquisa): Open64/OpenUH Mercurium/Nanos++ (BSC), Rose (LLNL) (Seminário da Pós-graduaçao) 24 de Março de / 78

59 Cluster Desafios Escalabilidade: física e de aplicação; (Seminário da Pós-graduaçao) 24 de Março de / 78

60 Cluster Desafios Escalabilidade: física e de aplicação; Disponibilidade: gerenciamento de falhas; (Seminário da Pós-graduaçao) 24 de Março de / 78

61 Cluster Desafios Escalabilidade: física e de aplicação; Disponibilidade: gerenciamento de falhas; Imagem única do sistema: parece ao usuário como se fosse um único sistema; (Seminário da Pós-graduaçao) 24 de Março de / 78

62 Cluster Desafios Escalabilidade: física e de aplicação; Disponibilidade: gerenciamento de falhas; Imagem única do sistema: parece ao usuário como se fosse um único sistema; Comunicação rápida: redes e protocolos de comunicação; (Seminário da Pós-graduaçao) 24 de Março de / 78

63 Cluster Desafios Escalabilidade: física e de aplicação; Disponibilidade: gerenciamento de falhas; Imagem única do sistema: parece ao usuário como se fosse um único sistema; Comunicação rápida: redes e protocolos de comunicação; Balanceamento de carga: CPU, rede, memória, discos; (Seminário da Pós-graduaçao) 24 de Março de / 78

64 Cluster Desafios Escalabilidade: física e de aplicação; Disponibilidade: gerenciamento de falhas; Imagem única do sistema: parece ao usuário como se fosse um único sistema; Comunicação rápida: redes e protocolos de comunicação; Balanceamento de carga: CPU, rede, memória, discos; Gerenciamento: administração e controle; (Seminário da Pós-graduaçao) 24 de Março de / 78

65 Cluster Desafios Escalabilidade: física e de aplicação; Disponibilidade: gerenciamento de falhas; Imagem única do sistema: parece ao usuário como se fosse um único sistema; Comunicação rápida: redes e protocolos de comunicação; Balanceamento de carga: CPU, rede, memória, discos; Gerenciamento: administração e controle; Aplicabilidade: aplicações voltadas para o cluster. (Seminário da Pós-graduaçao) 24 de Março de / 78

66 Cluster Medidas de Desempenho Vazão (throughput): taxa na qual os pedidos são atendidos pelo sistema (Seminário da Pós-graduaçao) 24 de Março de / 78

67 Cluster Medidas de Desempenho Vazão (throughput): taxa na qual os pedidos são atendidos pelo sistema Utilização: fração do tempo em que o recurso permanece ocupado (Seminário da Pós-graduaçao) 24 de Março de / 78

68 Cluster Medidas de Desempenho Vazão (throughput): taxa na qual os pedidos são atendidos pelo sistema Utilização: fração do tempo em que o recurso permanece ocupado Tempo de resposta (latência): tempo decorrido entre o pedido e o início/conclusão da realização do serviço (Seminário da Pós-graduaçao) 24 de Março de / 78

69 Cluster Medidas de Desempenho Vazão (throughput): taxa na qual os pedidos são atendidos pelo sistema Utilização: fração do tempo em que o recurso permanece ocupado Tempo de resposta (latência): tempo decorrido entre o pedido e o início/conclusão da realização do serviço Escalabilidade: um sistema é dito escalável quando a eficiência se mantém próxima a ideal com o aumento do número p de processadores aplicado à solução do problema cresce (Seminário da Pós-graduaçao) 24 de Março de / 78

70 Cluster Medidas de Desempenho T s : tempo de execução do programa sequencial (um processador) (Seminário da Pós-graduaçao) 24 de Março de / 78

71 Cluster Medidas de Desempenho T s : tempo de execução do programa sequencial (um processador) T p : tempo de execução do programa paralelo em p de processadores (Seminário da Pós-graduaçao) 24 de Março de / 78

72 Cluster Medidas de Desempenho T s : tempo de execução do programa sequencial (um processador) T p : tempo de execução do programa paralelo em p de processadores Speed-up ou ganho (S p ): razão entre T s e T p S p = T s T p (Seminário da Pós-graduaçao) 24 de Março de / 78

73 Cluster Medidas de Desempenho T s : tempo de execução do programa sequencial (um processador) T p : tempo de execução do programa paralelo em p de processadores Speed-up ou ganho (S p ): razão entre T s e T p Speed-up ideal ou linear: S p = p S p = T s T p (Seminário da Pós-graduaçao) 24 de Março de / 78

74 Cluster 300 Speed-up (Ganho de desempenho) Speed-up Linear Speed-up Sp p (Seminário da Pós-graduaçao) 24 de Março de / 78

75 Cluster Medidas de Desempenho Eficiência E p : razão entre o speed-up obtido, pelo número p de processadores E p = S p p (Seminário da Pós-graduaçao) 24 de Março de / 78

76 Cluster Medidas de Desempenho Eficiência E p : razão entre o speed-up obtido, pelo número p de processadores Eficiência ideal: E p = 1 E p = S p p (Seminário da Pós-graduaçao) 24 de Março de / 78

77 Cluster Eficiencia Eficiencia Ideal Eficiencia 1 Ep p (Seminário da Pós-graduaçao) 24 de Março de / 78

78 Cluster Métricas de Desempenho Paralelo GFLOP/S: bilhões (Giga) de operações de ponto flutuante por segundo (Seminário da Pós-graduaçao) 24 de Março de / 78

79 Cluster Métricas de Desempenho Paralelo GFLOP/S: bilhões (Giga) de operações de ponto flutuante por segundo Pico teório de desempenho: ocorre no caso em que a máquina não fizesse nada além de operações numéricas (Seminário da Pós-graduaçao) 24 de Março de / 78

80 Cluster Métricas de Desempenho Paralelo GFLOP/S: bilhões (Giga) de operações de ponto flutuante por segundo Pico teório de desempenho: ocorre no caso em que a máquina não fizesse nada além de operações numéricas Benchmarks: programas desenvolvidos para determinar as métricas de desempenho da máquinas. Exemplos: LINPACK, NASA-NPB (Seminário da Pós-graduaçao) 24 de Março de / 78

81 Cluster LINKPACK Benchmark Surgiu como pacote de solução de sistemas lineares (Ax = b) (Seminário da Pós-graduaçao) 24 de Março de / 78

82 Cluster LINKPACK Benchmark Surgiu como pacote de solução de sistemas lineares (Ax = b) Foi utilizado como benchmark inicialmente para predição de tempo de execução; (Seminário da Pós-graduaçao) 24 de Março de / 78

83 Cluster LINKPACK Benchmark Surgiu como pacote de solução de sistemas lineares (Ax = b) Foi utilizado como benchmark inicialmente para predição de tempo de execução; Relacionou-se o tempo de execução de 23 computadores para um problema de ordem 100 (LINPACK100) (Seminário da Pós-graduaçao) 24 de Março de / 78

84 Cluster LINKPACK Benchmark Surgiu como pacote de solução de sistemas lineares (Ax = b) Foi utilizado como benchmark inicialmente para predição de tempo de execução; Relacionou-se o tempo de execução de 23 computadores para um problema de ordem 100 (LINPACK100) Esta é a origem ranking mundial de supercomputadores TOP500 (Seminário da Pós-graduaçao) 24 de Março de / 78

85 Cluster LINKPACK Benchmark Surgiu como pacote de solução de sistemas lineares (Ax = b) Foi utilizado como benchmark inicialmente para predição de tempo de execução; Relacionou-se o tempo de execução de 23 computadores para um problema de ordem 100 (LINPACK100) Esta é a origem ranking mundial de supercomputadores TOP500 O TOP500 atualmente conta com dados de mais de 1300 sistemas de computação. (Seminário da Pós-graduaçao) 24 de Março de / 78

86 Cluster LINKPACK Benchmark Surgiu como pacote de solução de sistemas lineares (Ax = b) Foi utilizado como benchmark inicialmente para predição de tempo de execução; Relacionou-se o tempo de execução de 23 computadores para um problema de ordem 100 (LINPACK100) Esta é a origem ranking mundial de supercomputadores TOP500 O TOP500 atualmente conta com dados de mais de 1300 sistemas de computação. High Performance LINKPACK n n (HPL): (Seminário da Pós-graduaçao) 24 de Março de / 78

87 LINKPACK Benchmark Fatores que afetam o desempenho Tipo de aplicação; (Seminário da Pós-graduaçao) 24 de Março de / 78

88 LINKPACK Benchmark Fatores que afetam o desempenho Tipo de aplicação; Algoritmo; (Seminário da Pós-graduaçao) 24 de Março de / 78

89 LINKPACK Benchmark Fatores que afetam o desempenho Tipo de aplicação; Algoritmo; Tamanho do problema; (Seminário da Pós-graduaçao) 24 de Março de / 78

90 LINKPACK Benchmark Fatores que afetam o desempenho Tipo de aplicação; Algoritmo; Tamanho do problema; Nível da linguagem de programação; (Seminário da Pós-graduaçao) 24 de Março de / 78

91 LINKPACK Benchmark Fatores que afetam o desempenho Tipo de aplicação; Algoritmo; Tamanho do problema; Nível da linguagem de programação; Implementação; (Seminário da Pós-graduaçao) 24 de Março de / 78

92 LINKPACK Benchmark Fatores que afetam o desempenho Tipo de aplicação; Algoritmo; Tamanho do problema; Nível da linguagem de programação; Implementação; Esforço humano em otimizar o código; (Seminário da Pós-graduaçao) 24 de Março de / 78

93 LINKPACK Benchmark Fatores que afetam o desempenho Tipo de aplicação; Algoritmo; Tamanho do problema; Nível da linguagem de programação; Implementação; Esforço humano em otimizar o código; Sistema Operacional; (Seminário da Pós-graduaçao) 24 de Março de / 78

94 LINKPACK Benchmark Fatores que afetam o desempenho Tipo de aplicação; Algoritmo; Tamanho do problema; Nível da linguagem de programação; Implementação; Esforço humano em otimizar o código; Sistema Operacional; Hardware; (Seminário da Pós-graduaçao) 24 de Março de / 78

95 LINKPACK Benchmark Fatores que afetam o desempenho Tipo de aplicação; Algoritmo; Tamanho do problema; Nível da linguagem de programação; Implementação; Esforço humano em otimizar o código; Sistema Operacional; Hardware; Idade do compilador; (Seminário da Pós-graduaçao) 24 de Março de / 78

96 LINKPACK Benchmark Fatores que afetam o desempenho Tipo de aplicação; Algoritmo; Tamanho do problema; Nível da linguagem de programação; Implementação; Esforço humano em otimizar o código; Sistema Operacional; Hardware; Idade do compilador; Habilidade do compilador em gerar código otimizado; (Seminário da Pós-graduaçao) 24 de Março de / 78

97 LINKPACK Benchmark Fatores que afetam o desempenho Tipo de aplicação; Algoritmo; Tamanho do problema; Nível da linguagem de programação; Implementação; Esforço humano em otimizar o código; Sistema Operacional; Hardware; Idade do compilador; Habilidade do compilador em gerar código otimizado; Qualidade do núcleo de cálculo (BLAS otimizada); (Seminário da Pós-graduaçao) 24 de Março de / 78

98 Cluster Núcleo de cálculo do LINPACK BLAS (Basic Linear Algebra Subprograms): (Seminário da Pós-graduaçao) 24 de Março de / 78

99 Cluster Núcleo de cálculo do LINPACK BLAS (Basic Linear Algebra Subprograms): Nível 1: operações vetor-vetor (Seminário da Pós-graduaçao) 24 de Março de / 78

100 Cluster Núcleo de cálculo do LINPACK BLAS (Basic Linear Algebra Subprograms): Nível 1: operações vetor-vetor Nível 2: operações matriz-vetor (Seminário da Pós-graduaçao) 24 de Março de / 78

101 Cluster Núcleo de cálculo do LINPACK BLAS (Basic Linear Algebra Subprograms): Nível 1: operações vetor-vetor Nível 2: operações matriz-vetor Nível 3: operações matriz-matriz (Seminário da Pós-graduaçao) 24 de Março de / 78

102 Cluster Núcleo de cálculo do LINPACK BLAS (Basic Linear Algebra Subprograms): Nível 1: operações vetor-vetor Nível 2: operações matriz-vetor Nível 3: operações matriz-matriz Procurar utilizar BLAS otimizadas: (Seminário da Pós-graduaçao) 24 de Março de / 78

103 Cluster Núcleo de cálculo do LINPACK BLAS (Basic Linear Algebra Subprograms): Nível 1: operações vetor-vetor Nível 2: operações matriz-vetor Nível 3: operações matriz-matriz Procurar utilizar BLAS otimizadas: ATLAS: gerador gratuito de BLAS otimizada para qualquer sistema (Seminário da Pós-graduaçao) 24 de Março de / 78

104 Cluster Núcleo de cálculo do LINPACK BLAS (Basic Linear Algebra Subprograms): Nível 1: operações vetor-vetor Nível 2: operações matriz-vetor Nível 3: operações matriz-matriz Procurar utilizar BLAS otimizadas: ATLAS: gerador gratuito de BLAS otimizada para qualquer sistema Intel MKL (Intel Math Kernel Library) (Seminário da Pós-graduaçao) 24 de Março de / 78

105 Cluster Núcleo de cálculo do LINPACK BLAS (Basic Linear Algebra Subprograms): Nível 1: operações vetor-vetor Nível 2: operações matriz-vetor Nível 3: operações matriz-matriz Procurar utilizar BLAS otimizadas: ATLAS: gerador gratuito de BLAS otimizada para qualquer sistema Intel MKL (Intel Math Kernel Library) Goto BLAS (Seminário da Pós-graduaçao) 24 de Março de / 78

106 Cluster Em que consiste a lista TOP500 R max : Desempenho em Gflop/s para o maior problema executado; (Seminário da Pós-graduaçao) 24 de Março de / 78

107 Cluster Em que consiste a lista TOP500 R max : Desempenho em Gflop/s para o maior problema executado; N max : A dimensão do maior problema executado (Seminário da Pós-graduaçao) 24 de Março de / 78

108 Cluster Em que consiste a lista TOP500 R max : Desempenho em Gflop/s para o maior problema executado; N max : A dimensão do maior problema executado N 1/2 : O tamanho do problema onde foi alcançado metade de Rmax; (Seminário da Pós-graduaçao) 24 de Março de / 78

109 Cluster Em que consiste a lista TOP500 R max : Desempenho em Gflop/s para o maior problema executado; N max : A dimensão do maior problema executado N 1/2 : O tamanho do problema onde foi alcançado metade de Rmax; R peak : O pico teórico de desempenho da máquina (Seminário da Pós-graduaçao) 24 de Março de / 78

110 Desempenho máximo teórico R peak Intel Xeon E (Sandy Bridge): Possui 8 cores (#cores = 8) (Seminário da Pós-graduaçao) 24 de Março de / 78

111 Desempenho máximo teórico R peak Intel Xeon E (Sandy Bridge): Possui 8 cores (#cores = 8) Frequência de clock de 2.7GHz (freq = 2.7GHz); (Seminário da Pós-graduaçao) 24 de Março de / 78

112 Desempenho máximo teórico R peak Intel Xeon E (Sandy Bridge): Possui 8 cores (#cores = 8) Frequência de clock de 2.7GHz (freq = 2.7GHz); Executando 8 operações de ponto flutuante de precisão dupla por ciclo de clock (#flop/cycle = 8); (Seminário da Pós-graduaçao) 24 de Março de / 78

113 Desempenho máximo teórico R peak Intel Xeon E (Sandy Bridge): Possui 8 cores (#cores = 8) Frequência de clock de 2.7GHz (freq = 2.7GHz); Executando 8 operações de ponto flutuante de precisão dupla por ciclo de clock (#flop/cycle = 8); FLOPS #cores freq flop/cycle (Seminário da Pós-graduaçao) 24 de Março de / 78

114 Desempenho máximo teórico R peak Intel Xeon E (Sandy Bridge): Possui 8 cores (#cores = 8) Frequência de clock de 2.7GHz (freq = 2.7GHz); Executando 8 operações de ponto flutuante de precisão dupla por ciclo de clock (#flop/cycle = 8); FLOPS #cores freq flop/cycle FLOPS 8 2.7GHz 8 (Seminário da Pós-graduaçao) 24 de Março de / 78

115 Desempenho máximo teórico R peak Intel Xeon E (Sandy Bridge): Possui 8 cores (#cores = 8) Frequência de clock de 2.7GHz (freq = 2.7GHz); Executando 8 operações de ponto flutuante de precisão dupla por ciclo de clock (#flop/cycle = 8); FLOPS #cores freq flop/cycle FLOPS 8 2.7GHz 8 FLOPS 172.8Gflop/s (Seminário da Pós-graduaçao) 24 de Março de / 78

116 Desempenho máximo teórico R peak Intel Xeon E (Sandy Bridge): Possui 8 cores (#cores = 8) Frequência de clock de 2.7GHz (freq = 2.7GHz); Executando 8 operações de ponto flutuante de precisão dupla por ciclo de clock (#flop/cycle = 8); FLOPS #cores freq flop/cycle FLOPS 8 2.7GHz 8 FLOPS 172.8Gflop/s Se integrarmos nós com esta configuração (Seminário da Pós-graduaçao) 24 de Março de / 78

117 Desempenho máximo teórico R peak Intel Xeon E (Sandy Bridge): Possui 8 cores (#cores = 8) Frequência de clock de 2.7GHz (freq = 2.7GHz); Executando 8 operações de ponto flutuante de precisão dupla por ciclo de clock (#flop/cycle = 8); FLOPS #cores freq flop/cycle FLOPS 8 2.7GHz 8 FLOPS 172.8Gflop/s Se integrarmos nós com esta configuração Temos então um cluster com GFlop/s (Seminário da Pós-graduaçao) 24 de Março de / 78

118 Desempenho máximo teórico R peak Intel Xeon E (Sandy Bridge): Possui 8 cores (#cores = 8) Frequência de clock de 2.7GHz (freq = 2.7GHz); Executando 8 operações de ponto flutuante de precisão dupla por ciclo de clock (#flop/cycle = 8); FLOPS #cores freq flop/cycle FLOPS 8 2.7GHz 8 FLOPS 172.8Gflop/s Se integrarmos nós com esta configuração Temos então um cluster com GFlop/s ou TFlop/s (Seminário da Pós-graduaçao) 24 de Março de / 78

119 Desempenho máximo teórico R peak Intel Xeon E (Sandy Bridge): Possui 8 cores (#cores = 8) Frequência de clock de 2.7GHz (freq = 2.7GHz); Executando 8 operações de ponto flutuante de precisão dupla por ciclo de clock (#flop/cycle = 8); FLOPS #cores freq flop/cycle FLOPS 8 2.7GHz 8 FLOPS 172.8Gflop/s Se integrarmos nós com esta configuração Temos então um cluster com GFlop/s ou TFlop/s ou 3.2 PFlop/s de pico teórico (Seminário da Pós-graduaçao) 24 de Março de / 78

120 Desempenho máximo teórico R peak Intel Xeon E (Sandy Bridge): Possui 8 cores (#cores = 8) Frequência de clock de 2.7GHz (freq = 2.7GHz); Executando 8 operações de ponto flutuante de precisão dupla por ciclo de clock (#flop/cycle = 8); FLOPS #cores freq flop/cycle FLOPS 8 2.7GHz 8 FLOPS 172.8Gflop/s Se integrarmos nós com esta configuração Temos então um cluster com GFlop/s ou TFlop/s ou 3.2 PFlop/s de pico teórico Esta é a configuração do supercomputador número 10 no TOP500: SuperMUC (Alemanha) (Seminário da Pós-graduaçao) 24 de Março de / 78

121 TOP500: #10 SuperMUC (Alemanha) Configuração cores distribuídos em nós contendo CPU Intel Xeon E Core R max =2.9 PFlop/s R peak =3.2 PFlop/s (Seminário da Pós-graduaçao) 24 de Março de / 78

122 TOP500: #2 TITAN (EUA) Configuração cores distribuídos em nós contendo CPU AMD Opteron Core e em GPU Nvidia K20 R max =17.6 PFlop/s R peak =27.1 PFlop/s (Seminário da Pós-graduaçao) 24 de Março de / 78

123 TOP500: #1 Tianhe-2 (China) Configuração cores distribuídos em nós contendo CPU Intel Xeon E Core e em coprocessador Intel Xeon Phi 31S1P R max =33.9 PFlop/s R peak =54.9 PFlop/s (Seminário da Pós-graduaçao) 24 de Março de / 78

124 TOP500 Principais Fabricantes (Manufacturer/Vendors): (Seminário da Pós-graduaçao) 24 de Março de / 78

125 TOP500 Principais Fabricantes (Manufacturer/Vendors): (Seminário da Pós-graduaçao) 24 de Março de / 78

126 TOP500: Arquiteturas (Seminário da Pós-graduaçao) 24 de Março de / 78

127 TOP500: Arquiteturas CLUSTERS: 84.60% MPP : 15.40% (Seminário da Pós-graduaçao) 24 de Março de / 78

128 Arquitetura de Computadores Paralelos Symmetric Multi-Processing (SMP) Massively Parallel Processing (MPP) Cluster (Seminário da Pós-graduaçao) 24 de Março de / 78

129 Brasil no TOP500 Perspectivas (Seminário da Pós-graduaçao) 24 de Março de / 78

130 Brasil no TOP500 Perspectivas O LNCC está em negociação para receber um cluster da Bull com cerca de 2 PFlop/s de R peak (Seminário da Pós-graduaçao) 24 de Março de / 78

131 Brasil no TOP500 Perspectivas O LNCC está em negociação para receber um cluster da Bull com cerca de 2 PFlop/s de R peak Potencialmente, este sistema estaria hoje entre os 20 primeiros no TOP500 (R max ) (Seminário da Pós-graduaçao) 24 de Março de / 78

132 Brasil no TOP500 Perspectivas O LNCC está em negociação para receber um cluster da Bull com cerca de 2 PFlop/s de R peak Potencialmente, este sistema estaria hoje entre os 20 primeiros no TOP500 (R max ) Centro de Pesquisa em HPC da Bull a ser instalado em Petrópolis-RJ (Seminário da Pós-graduaçao) 24 de Março de / 78

133 Roteiro 1 Introdução 2 Recursos de Hardware 3 Recursos de Software 4 Considerações Finais (Seminário da Pós-graduaçao) 24 de Março de / 78

134 Clusters no LNCC Nome #cores #cores R peak RAM HD CPU(nós) GPU(nós) TFlop/s TBytes TBytes Sun Blade X (30) SGI Altix XE (30) 17152(11) SGI Altix ICE (25) SGI Altix XE (94) 10752(12) 12.0 N/D 47 Bull bullx 1392(100) 3584(4) (Seminário da Pós-graduaçao) 24 de Março de / 78

135 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Nome CPU GPU R peak RAM HD #cores(nós) #cores(nós) TFlop/s TBytes TBytes Sun Blade X (72) SGI Altix XE (30) 17152(11) SGI Altix ICE (25) SGI Altix XE (94) 10752(12) 12.0 N/D 47 Bull bullx 1392(100) 3584(4) (Seminário da Pós-graduaçao) 24 de Março de / 78

136 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE SunHPC (Seminário da Pós-graduaçao) 24 de Março de / 78

137 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE - Sistema Operacional: Centos 5.5 SunHPC (Seminário da Pós-graduaçao) 24 de Março de / 78

138 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE - Sistema Operacional: Centos 5.5 SunHPC - Sistema Operacional: Centos 5.5 (Seminário da Pós-graduaçao) 24 de Março de / 78

139 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE - Sistema Operacional: Centos Gerenciador de Recursos: SGE 6.2 SunHPC - Sistema Operacional: Centos 5.5 (Seminário da Pós-graduaçao) 24 de Março de / 78

140 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE - Sistema Operacional: Centos Gerenciador de Recursos: SGE 6.2 SunHPC - Sistema Operacional: Centos Gerenciador de Recursos: SGE 6.2 (Seminário da Pós-graduaçao) 24 de Março de / 78

141 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE - Sistema Operacional: Centos Gerenciador de Recursos: SGE Rede de Interconexão: Infiniband; SunHPC - Sistema Operacional: Centos Gerenciador de Recursos: SGE 6.2 (Seminário da Pós-graduaçao) 24 de Março de / 78

142 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE - Sistema Operacional: Centos Gerenciador de Recursos: SGE Rede de Interconexão: Infiniband; SunHPC - Sistema Operacional: Centos Gerenciador de Recursos: SGE Rede de Interconexão: Infiniband; (Seminário da Pós-graduaçao) 24 de Março de / 78

143 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE - Sistema Operacional: Centos Gerenciador de Recursos: SGE Rede de Interconexão: Infiniband; - SunHPC - Sistema Operacional: Centos Gerenciador de Recursos: SGE Rede de Interconexão: Infiniband; (Seminário da Pós-graduaçao) 24 de Março de / 78

144 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE - Sistema Operacional: Centos Gerenciador de Recursos: SGE Rede de Interconexão: Infiniband; - SunHPC - Sistema Operacional: Centos Gerenciador de Recursos: SGE Rede de Interconexão: Infiniband; - (Seminário da Pós-graduaçao) 24 de Março de / 78

145 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE SunHPC (Seminário da Pós-graduaçao) 24 de Março de / 78

146 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE - é formado por 30 nós; SunHPC (Seminário da Pós-graduaçao) 24 de Março de / 78

147 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE - é formado por 30 nós; SunHPC - é formado por 72 nós; (Seminário da Pós-graduaçao) 24 de Março de / 78

148 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE - é formado por 30 nós; - os nós possuem até 16 núcleos computacionais; SunHPC - é formado por 72 nós; (Seminário da Pós-graduaçao) 24 de Março de / 78

149 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE - é formado por 30 nós; - os nós possuem até 16 núcleos computacionais; SunHPC - é formado por 72 nós; - os nós possuem 2 Intel Xeon E GHz Quad Core; (Seminário da Pós-graduaçao) 24 de Março de / 78

150 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE - é formado por 30 nós; - os nós possuem até 16 núcleos computacionais; - 11 desses nós possuem também GPUs; SunHPC - é formado por 72 nós; - os nós possuem 2 Intel Xeon E GHz Quad Core; (Seminário da Pós-graduaçao) 24 de Março de / 78

151 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE - é formado por 30 nós; - os nós possuem até 16 núcleos computacionais; - 11 desses nós possuem também GPUs; SunHPC - é formado por 72 nós; - os nós possuem 2 Intel Xeon E GHz Quad Core; - nenhum nó possui GPU; (Seminário da Pós-graduaçao) 24 de Março de / 78

152 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE - é formado por 30 nós; - os nós possuem até 16 núcleos computacionais; - 11 desses nós possuem também GPUs; - R peak =16.2 TFlop/s SunHPC - é formado por 72 nós; - os nós possuem 2 Intel Xeon E GHz Quad Core; - nenhum nó possui GPU; (Seminário da Pós-graduaçao) 24 de Março de / 78

153 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE - é formado por 30 nós; - os nós possuem até 16 núcleos computacionais; - 11 desses nós possuem também GPUs; - R peak =16.2 TFlop/s SunHPC - é formado por 72 nós; - os nós possuem 2 Intel Xeon E GHz Quad Core; - nenhum nó possui GPU; - R peak =6.5 TFlop/s (Seminário da Pós-graduaçao) 24 de Março de / 78

154 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE - 30 nós; (Seminário da Pós-graduaçao) 24 de Março de / 78

155 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE - 30 nós; - 19 nós possuem 2 Intel Xeon E GHz Quad-Core = 152 cores; (Seminário da Pós-graduaçao) 24 de Março de / 78

156 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE - 30 nós; - 19 nós possuem 2 Intel Xeon E GHz Quad-Core = 152 cores; - 6 nós possuem 2 Intel Xeon X GHz Hexa-Core = 72 cores; (Seminário da Pós-graduaçao) 24 de Março de / 78

157 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE - 30 nós; - 19 nós possuem 2 Intel Xeon E GHz Quad-Core = 152 cores; - 6 nós possuem 2 Intel Xeon X GHz Hexa-Core = 72 cores; - 4 nós possuem 2 Intel Xeon E GHz Octo-Core = 64 cores; (Seminário da Pós-graduaçao) 24 de Março de / 78

158 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE - 30 nós; - 19 nós possuem 2 Intel Xeon E GHz Quad-Core = 152 cores; - 6 nós possuem 2 Intel Xeon X GHz Hexa-Core = 72 cores; - 4 nós possuem 2 Intel Xeon E GHz Octo-Core = 64 cores; - CPU cores: 288; (Seminário da Pós-graduaçao) 24 de Março de / 78

159 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE - 30 nós; - 19 nós possuem 2 Intel Xeon E GHz Quad-Core = 152 cores; - 6 nós possuem 2 Intel Xeon X GHz Hexa-Core = 72 cores; - 4 nós possuem 2 Intel Xeon E GHz Octo-Core = 64 cores; - CPU cores: 288; - 6 nós 2 Tesla C cores = 5376 cores; (Seminário da Pós-graduaçao) 24 de Março de / 78

160 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE - 30 nós; - 19 nós possuem 2 Intel Xeon E GHz Quad-Core = 152 cores; - 6 nós possuem 2 Intel Xeon X GHz Hexa-Core = 72 cores; - 4 nós possuem 2 Intel Xeon E GHz Octo-Core = 64 cores; - CPU cores: 288; - 6 nós 2 Tesla C cores = 5376 cores; - 1 nó 4 Tesla C cores = 1792 cores; (Seminário da Pós-graduaçao) 24 de Março de / 78

161 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE - 30 nós; - 19 nós possuem 2 Intel Xeon E GHz Quad-Core = 152 cores; - 6 nós possuem 2 Intel Xeon X GHz Hexa-Core = 72 cores; - 4 nós possuem 2 Intel Xeon E GHz Octo-Core = 64 cores; - CPU cores: 288; - 6 nós 2 Tesla C cores = 5376 cores; - 1 nó 4 Tesla C cores = 1792 cores; - 4 nós 1 Tesla K20m 2496 cores = 9984 cores; (Seminário da Pós-graduaçao) 24 de Março de / 78

162 Clusters no LNCC: disponibilizados pelo CENAPAD-RJ Altix-XE - 30 nós; - 19 nós possuem 2 Intel Xeon E GHz Quad-Core = 152 cores; - 6 nós possuem 2 Intel Xeon X GHz Hexa-Core = 72 cores; - 4 nós possuem 2 Intel Xeon E GHz Octo-Core = 64 cores; - CPU cores: 288; - 6 nós 2 Tesla C cores = 5376 cores; - 1 nó 4 Tesla C cores = 1792 cores; - 4 nós 1 Tesla K20m 2496 cores = 9984 cores; - GPU cores: (Seminário da Pós-graduaçao) 24 de Março de / 78

163 Arquitetura das CPUs (Seminário da Pós-graduaçao) 24 de Março de / 78

164 Arquitetura das CPUs (cont.) Sun Blade X6250: 2 Intel Xeon E5440 Quad-Core Saida da aplicacao de analise de desempenho LIKWID: $ likwid-topology -g Socket 0: kB 32kB 32kB 32kB MB 6MB Socket 1: kB 32kB 32kB 32kB MB 6MB (Seminário da Pós-graduaçao) 24 de Março de / 78

165 Arquitetura das CPUs (Seminário da Pós-graduaçao) 24 de Março de / 78

166 Arquitetura das CPUs (cont.) SGI Altix XE 340 (node23): 2 Intel Xeon E5520 Quad Core Socket 0: kB 32kB 32kB 32kB kB 256kB 256kB 256kB MB Socket 1: kB 32kB 32kB 32kB kB 256kB 256kB 256kB MB (Seminário da Pós-graduaçao) 24 de Março de / 78

167 Arquitetura das CPUs (Seminário da Pós-graduaçao) 24 de Março de / 78

168 Arquitetura das CPUs (cont.) SGI Altix XE 340 (node41): 2 Intel Xeon E Octo-Core Socket 0: kB 32kB 32kB 32kB 32kB 32kB 32kB 32kB kB 256kB 256kB 256kB 256kB 256kB 256kB 256kB MB Socket 1: kB 32kB 32kB 32kB 32kB 32kB 32kB 32kB kB 256kB 256kB 256kB 256kB 256kB 256kB 256kB MB (Seminário da Pós-graduaçao) 24 de Março de / 78

TOP Arquitetura dos supercomputadores

TOP Arquitetura dos supercomputadores TOP 500 - Arquitetura dos supercomputadores Steven Koiti Tsukamoto Dezembro de 2010 Objetivos Os supercomputadores Top 500 A arquitetura Supercomputadores São máquinas de grande porte, capazes de processar

Leia mais

Santos Dumont - LNCC: Utilização e Pesquisa. Carla Osthoff e Roberto Souto CENAPAD/LNCC Laboratório Nacional de Computação Científica

Santos Dumont - LNCC: Utilização e Pesquisa. Carla Osthoff e Roberto Souto CENAPAD/LNCC Laboratório Nacional de Computação Científica Santos Dumont - LNCC: Utilização e Pesquisa Carla Osthoff e Roberto Souto CENAPAD/LNCC Laboratório Nacional de Computação Científica www.lncc.br 1 Laboratório Nacional de Computação Científica LNCC/ MCTIC

Leia mais

Supercomputador Pleiades

Supercomputador Pleiades Supercomputador Pleiades Introdução ao Processamento Paralelo e Distribuído Renato Marques Dilli Prof. Adenauer C. Yamin Universidade Católica de Pelotas 1 de maio de 2009 Mestrado em Ciência da Computação

Leia mais

Evolução da Computação de Alto Desempenho sob a Ótica da Lis. ou (Se um processador já é rápido, imaginem um sistema com processadores :-)

Evolução da Computação de Alto Desempenho sob a Ótica da Lis. ou (Se um processador já é rápido, imaginem um sistema com processadores :-) Evolução da Computação de Alto Desempenho sob a Ótica da Lista TOP500 ou (Se um processador já é rápido, imaginem um sistema com 10.649.600 processadores :-) Siang Wun Song IME-USP Evolução

Leia mais

Máquinas mais rápidas do mundo

Máquinas mais rápidas do mundo Máquinas mais rápidas do mundo Jorge Melegati Instituto de Matemática e Estatística Introdução à Computação Paralela e Distribuída melegati@ime.usp.br Junho de 2015 Jorge Melegati (IME) Máquinas mais rápidas

Leia mais

Evolução da Computação de Alto Desempenho sob a Ótica da Lis. ou (Se um processador já é rápido, imaginem um sistema com processadores :-)

Evolução da Computação de Alto Desempenho sob a Ótica da Lis. ou (Se um processador já é rápido, imaginem um sistema com processadores :-) Evolução da Computação de Alto Desempenho sob a Ótica da Lista TOP500 ou (Se um processador já é rápido, imaginem um sistema com 10.649.600 processadores :-) Siang Wun Song IME-USP Computação

Leia mais

AGA 511. Métodos Computacionais em Astronomia. Segundo semestre de 2017

AGA 511. Métodos Computacionais em Astronomia. Segundo semestre de 2017 AGA 511 Métodos Computacionais em Astronomia Segundo semestre de 2017 Informações gerais Prof. Alex Cavaliéri Carciofi Email: carciofi@usp.br Ramal: 2712 Colaborador: Carlos Eduardo Paladini Email: carlos.paladini@iag.usp.br

Leia mais

Introdução à Programação Paralela através de Padrões. Denise Stringhini Calebe Bianchini Luciano Silva

Introdução à Programação Paralela através de Padrões. Denise Stringhini Calebe Bianchini Luciano Silva Introdução à Programação Paralela através de Padrões Denise Stringhini Calebe Bianchini Luciano Silva Sumário Introdução: conceitos de paralelismo Conceitos básicos sobre padrões de programação paralela

Leia mais

O estado de arte: a evolução de computação de alto desempenho

O estado de arte: a evolução de computação de alto desempenho O estado de arte: a evolução de computação de alto desempenho 2009 Evolução da Computação O Mark I tinha ciclo de 0,3 segundos; o ENIAC 200 micro-segundos Processador hoje: vários GHz - menos de um nanosegundo

Leia mais

Técnicas de Processamento Paralelo na Geração do Fractal de Mandelbrot

Técnicas de Processamento Paralelo na Geração do Fractal de Mandelbrot Técnicas de Processamento Paralelo na Geração do Fractal de Mandelbrot Bruno Pereira dos Santos Dany Sanchez Dominguez Esbel Tomás Evalero Orellana Universidade Estadual de Santa Cruz Roteiro Breve introdução

Leia mais

Computação de Alto Desempenho Clusters de PCs

Computação de Alto Desempenho Clusters de PCs RSS-10/03 p.1/31 Computação de Alto Desempenho Clusters de PCs Renato Silva LNCC - MCT Outubro de 2003 RSS-10/03 p.2/31 Renato S. Silva sala: 2a-23 - ramal: 6148 - e-mail: rssr@lncc.br Material: Aulas:

Leia mais

Intel Xeon Phi. Abilio. Funcionamento. Modelo de. Abilio. Linguagens Suportadas. Exemplos de Produtos no Mercado. 13 de agosto de / 22

Intel Xeon Phi. Abilio. Funcionamento. Modelo de. Abilio. Linguagens Suportadas. Exemplos de Produtos no Mercado. 13 de agosto de / 22 13 de agosto de 2013 1 / 22 Sumário 1 2 3 4 5 6 2 / 22 Baseado na tecnologia Intel Many Integrated Core Co-processador ou um Supercomputador em uma placa 61 cores 8 GB de memória DDR5 Apresenta-se ao sistema

Leia mais

30/5/2011. Sistemas computacionais para processamento paralelo e distribuído

30/5/2011. Sistemas computacionais para processamento paralelo e distribuído Arquitetura de Computadores Sistemas computacionais para processamento paralelo e distribuído Prof. Marcos Quinet Universidade Federal Fluminense UFF Pólo Universitário de Rio das Ostras - PURO Processamento

Leia mais

Como programar um computador com processadores? ou: Oportunidades e Desafios da Computação Paralela

Como programar um computador com processadores? ou: Oportunidades e Desafios da Computação Paralela Palestra para alunos de graduação da USP 1 de abril de 2005 1/26 Como programar um computador com 32.768 processadores? ou: Oportunidades e Desafios da Computação Paralela Siang Wun Song Universidade de

Leia mais

O Sistema de Processamento Paralelo Netuno

O Sistema de Processamento Paralelo Netuno O Sistema de Processamento Paralelo Netuno Aplicações Paralelas Genoma Humano Turbulência dos Fluidos Dinâmica de Veículos Circulação de Oceanos Dinâmica de Fluidos Viscosos Modelagem de Supercondutores

Leia mais

Avaliação de Desempenho. September 28, 2010

Avaliação de Desempenho. September 28, 2010 September 28, 2010 O que é desempenho? em primeiro lugar, uma ótima tradução para performance... :-) tempo de execução (o centro das atenções!) outras: projeto, ciclo de vida, manutenção,... mesmo outras

Leia mais

UNIVERSIDADE ESTADUAL DE PONTA GROSSA SETOR DE CIÊNCIAS AGRÁRIAS E DE TECNOLOGIAS DEPARTAMENTO DE INFORMÁTICA

UNIVERSIDADE ESTADUAL DE PONTA GROSSA SETOR DE CIÊNCIAS AGRÁRIAS E DE TECNOLOGIAS DEPARTAMENTO DE INFORMÁTICA UNIVERSIDADE ESTADUAL DE PONTA GROSSA SETOR DE CIÊNCIAS AGRÁRIAS E DE TECNOLOGIAS DEPARTAMENTO DE INFORMÁTICA DAVID PATRICK ZAMPIER LUIS THIAGO PADILHA ARQUITETURA DE SUPERCOMPUTADORES PONTA GROSSA 2017

Leia mais

SSC510 Arquitetura de Computadores. 10ª aula

SSC510 Arquitetura de Computadores. 10ª aula SSC510 Arquitetura de Computadores 10ª aula ARQUITETURA MIMD COM MEM. DISTRIBUÍDA MPP, CLUSTERS, GRADES, CLOUD PROFA. SARITA MAZZINI BRUSCHI Arquitetura MIMD com Memória Distribuída As arquiteturas MIMD

Leia mais

Paradigmas de Processamento Paralelo na Resolução do Fractal de Mandelbrot

Paradigmas de Processamento Paralelo na Resolução do Fractal de Mandelbrot Paradigmas de Processamento Paralelo na Resolução do Fractal de Mandelbrot Bruno Pereira dos Santos Dany Sanchez Dominguez Universidade Estadual de Santa Cruz Cronograma Introdução Serial vs Processamento

Leia mais

CAP-387(2016) Tópicos Especiais em

CAP-387(2016) Tópicos Especiais em CAP-387(2016) Tópicos Especiais em Computação Aplicada: Construção de Aplicações Massivamente Paralelas Aula 2: Sistemas Massivamente Paralelos Atuais Celso L. Mendes, Stephan Stephany LAC /INPE Emails:

Leia mais

de petróleo. Um novo domínio chamado computação de propósito geral em processadores gráficos (GPGPU) surgiu quando os pipelines de gráficos de

de petróleo. Um novo domínio chamado computação de propósito geral em processadores gráficos (GPGPU) surgiu quando os pipelines de gráficos de 12 1 1.1. Motivações Dentre os tipos de técnicas de Inteligência Artificial existentes, as técnicas de Programação Genética (PG) continuam mudando rapidamente conforme os pesquisadores e profissionais

Leia mais

Celso L. Mendes LAC /INPE

Celso L. Mendes LAC /INPE Arquiteturas para Processamento de Alto Desempenho (PAD) Aula 9 Celso L. Mendes LAC /INPE Email: celso.mendes@inpe.br Aula 9 (3/5): E. Aceleradores Estrutura Planejada i. Estruturas mais Populares ii.

Leia mais

COMPUTAÇÃO PARALELA COM ACELERADORES GPGPU 1. Emilio Hoffmann De Oliveira 2, Edson Luiz Padoin 3.

COMPUTAÇÃO PARALELA COM ACELERADORES GPGPU 1. Emilio Hoffmann De Oliveira 2, Edson Luiz Padoin 3. COMPUTAÇÃO PARALELA COM ACELERADORES GPGPU 1 Emilio Hoffmann De Oliveira 2, Edson Luiz Padoin 3. 1 Trabalho de Conclusão de Curso 2 Aluno do Curso de Ciência da Computação - emiliohoffmann@hotmail.com

Leia mais

ORGANIZAÇÃO E ARQUITETURA DE COMPUTADORES II AULA 04: PROCESSAMENTO PARALELO: MULTICOMPUTADOR

ORGANIZAÇÃO E ARQUITETURA DE COMPUTADORES II AULA 04: PROCESSAMENTO PARALELO: MULTICOMPUTADOR ORGANIZAÇÃO E ARQUITETURA DE COMPUTADORES II AULA 04: PROCESSAMENTO PARALELO: MULTICOMPUTADOR Prof. Max Santana Rolemberg Farias max.santana@univasf.edu.br Colegiado de Engenharia de Computação MULTICOMPUTADORES

Leia mais

Paralelização de Algoritmos de CFD em Clusters Multi-Core MC7. Escola de Verão Arquiteturas Multi-Core

Paralelização de Algoritmos de CFD em Clusters Multi-Core MC7. Escola de Verão Arquiteturas Multi-Core RSS-Verão-01/08 p.1/36 Paralelização de Algoritmos de CFD em Clusters Multi-Core MC7 Escola de Verão 2008 Arquiteturas Multi-Core Renato S. Silva LNCC - MCT Janeiro de 2008 RSS-Verão-01/08 p.2/36 Objetivo:

Leia mais

Aplicação de Processamento Paralelo com GPU a Problemas de Escoamento Monofásico em Meios Porosos. Bruno Pereira dos Santos Dany Sanchez Dominguez

Aplicação de Processamento Paralelo com GPU a Problemas de Escoamento Monofásico em Meios Porosos. Bruno Pereira dos Santos Dany Sanchez Dominguez Aplicação de Processamento Paralelo com GPU a Problemas de Escoamento Monofásico em Meios Porosos Bruno Pereira dos Santos Dany Sanchez Dominguez 1 Roteiro 1. Introdução 2. Five-Spot Problem 3. Modelagem

Leia mais

DESENVOLVIMENTO DE UM ALGORITMO PARALELO PARA APLICAÇÃO EM CLUSTER DE COMPUTADORES

DESENVOLVIMENTO DE UM ALGORITMO PARALELO PARA APLICAÇÃO EM CLUSTER DE COMPUTADORES DESENVOLVIMENTO DE UM ALGORITMO PARALELO PARA APLICAÇÃO EM CLUSTER DE COMPUTADORES João Ricardo Kohler Abramoski (PAIC/FUNDAÇÃO ARAUCÁRIA), Sandra Mara Guse Scós Venske (Orientadora), e-mail: ssvenske@unicentro.br

Leia mais

Arquitetura de Computadores Paralelos. Introdução Conceitos Básicos Ambientes de Programação Modelos de Programação Paralela

Arquitetura de Computadores Paralelos. Introdução Conceitos Básicos Ambientes de Programação Modelos de Programação Paralela Arquitetura de Computadores Paralelos Introdução Conceitos Básicos Ambientes de Programação Modelos de Programação Paralela Por que estudar Computação Paralela e Distribuída? Os computadores sequenciais

Leia mais

Computação Paralela (CUDA)

Computação Paralela (CUDA) Universidade Federal do Amazonas Faculdade de Tecnologia Departamento de Eletrônica e Computação Computação Paralela (CUDA) Hussama Ibrahim hussamaibrahim@ufam.edu.br Notas de Aula Baseado nas Notas de

Leia mais

Sistemas Distribuídos

Sistemas Distribuídos Sistemas Distribuídos Classificação de Flynn Fonte: Professoras. Sarita UFRJ e Thais V. Batista - UFRN Arquiteturas Paralelas Computação Paralela Conceitos Permite a execução das tarefas em menor tempo,

Leia mais

SGI. SGI Altix. Supercomputadores de memória compartilhada. Paulo Matias. Universidade de São Paulo

SGI. SGI Altix. Supercomputadores de memória compartilhada. Paulo Matias. Universidade de São Paulo Supercomputadores de memória compartilhada 1 1 Instituto de Física de São Carlos Universidade de São Paulo Seminários de Arquiteturas Avançadas de Computadores Introdução SGI Duas linhas de máquinas para

Leia mais

OpenMP: Variáveis de Ambiente

OpenMP: Variáveis de Ambiente Treinamento OpenMP C/C++ 1 TREINAMENTO OpenMP C/C++ Módulo 1 Computação de Alto Desempenho Módulo 2 OpenMP: Construtores Paralelos Módulo 3 OpenMP: Diretivas de sincronização Módulo 4 OpenMP: Funções de

Leia mais

ARQUITETURA E ORGANIZAÇÃO DE COMPUTADORES PARALELISMO: SMP E PROCESSAMENTO VETORIAL. Prof. Dr. Daniel Caetano

ARQUITETURA E ORGANIZAÇÃO DE COMPUTADORES PARALELISMO: SMP E PROCESSAMENTO VETORIAL. Prof. Dr. Daniel Caetano ARQUITETURA E ORGANIZAÇÃO DE COMPUTADORES PARALELISMO: SMP E PROCESSAMENTO VETORIAL Prof. Dr. Daniel Caetano 2012-2 Objetivos Compreender a Arquitetura SMP Conhecer a Organização SMP Apresentar o Conceito

Leia mais

Aluno de Pós-Graduação em Engenharia de Software para Dispositivos Móveis pela UNINTER

Aluno de Pós-Graduação em Engenharia de Software para Dispositivos Móveis pela UNINTER COMPARAÇÃO DE DESEMPENHO NA PROGRAMAÇÃO PARALELA HÍBRIDA (MPI + OPENMP) NA BUSCA DE TEXTO EM ARQUIVOS 1 COMPARISON OF PERFORMANCE IN HYBRID PARALLEL PROGRAMMING (MPI + OPENMP) IN SEARCH OF TEXT IN FILES

Leia mais

Computação paralela. Nielsen Castelo Damasceno

Computação paralela. Nielsen Castelo Damasceno Computação paralela Nielsen Castelo Damasceno Introdução. Motivação. Como é utilizado. Fundamentos. Programação paralela. Open MP. MPI GPU (Cuda). Aplicação prática. Considerações Finais Referências. Agenda

Leia mais

CAP-387(2016) Tópicos Especiais em

CAP-387(2016) Tópicos Especiais em CAP-387(2016) Tópicos Especiais em Computação Aplicada: Construção de Aplicações Massivamente Paralelas Aula 3: Sistemas Massivamente Paralelos Atuais - Brasil Celso L. Mendes, Stephan Stephany LAC /INPE

Leia mais

SSC510 Arquitetura de Computadores. 6ª aula

SSC510 Arquitetura de Computadores. 6ª aula SSC510 Arquitetura de Computadores 6ª aula PARALELISMO EM NÍVEL DE PROCESSOS PROFA. SARITA MAZZINI BRUSCHI Tipos de Paralelismo Instrução (granulosidade fina) Paralelismo entre as instruções Arquiteturas

Leia mais

5 Unidades de Processamento Gráfico GPUs

5 Unidades de Processamento Gráfico GPUs 5 Unidades de Processamento Gráfico GPUs As GPUs são processadores maciçamente paralelos, com múltiplos elementos de processamento, tipicamente utilizadas como aceleradores de computação. Elas fornecem

Leia mais

APPRO XTREME-X SERVER Papers and Abstracts

APPRO XTREME-X SERVER Papers and Abstracts APPRO XTREME-X SERVER Papers and Abstracts Nelsi Warken 1 Programa de Pós-Graduação em Informática Mestrado em Ciência da Computação Universidade Católica de Pelotas, RS, Brasil nelsi.warken@gmail.com

Leia mais

Arquiteturas Paralelas

Arquiteturas Paralelas Arquiteturas Paralelas Arquiteturas Paralelas Graduação em Ciência da Computação Universidade do Vale do Rio dos Sinos Prof. Gerson Cavalheiro Programação Paralela e Distribuída 2006 CC / UNISINOS Classificação

Leia mais

Processamento Paralelo Utilizando GPU

Processamento Paralelo Utilizando GPU Processamento Paralelo Utilizando GPU Universidade Estadual de Santa Cruz Bruno Pereira dos Santos Dany Sanchez Dominguez Esbel Evalero Orellana Cronograma Breve introdução sobre processamento paralelo

Leia mais

Apresentação dos Serviços para Processamento de Dados de Alto Desempenho disponibilizados pela InterNuvem

Apresentação dos Serviços para Processamento de Dados de Alto Desempenho disponibilizados pela InterNuvem Apresentação dos Serviços para Processamento de Dados de Alto Desempenho disponibilizados pela InterNuvem Francisco Ribacionka e Ettore Enrico (STI ) USP/STI/InterNuvem internuvem@usp.br Março -2016 Apresentação

Leia mais

ARQUITETURA E ORGANIZAÇÃO DE COMPUTADORES PARALELISMO: SMP E PROCESSAMENTO VETORIAL. Prof. Dr. Daniel Caetano

ARQUITETURA E ORGANIZAÇÃO DE COMPUTADORES PARALELISMO: SMP E PROCESSAMENTO VETORIAL. Prof. Dr. Daniel Caetano ARQUITETURA E ORGANIZAÇÃO DE COMPUTADORES PARALELISMO: SMP E PROCESSAMENTO VETORIAL Prof. Dr. Daniel Caetano 2011-2 Visão Geral 1 2 3 4 Introdução Arquitetura SMP Organização SMP Processamento Vetorial

Leia mais

ARQUITETURA E ORGANIZAÇÃO DE COMPUTADORES PARALELISMO: SMP E PROCESSAMENTO VETORIAL. Prof. Dr. Daniel Caetano

ARQUITETURA E ORGANIZAÇÃO DE COMPUTADORES PARALELISMO: SMP E PROCESSAMENTO VETORIAL. Prof. Dr. Daniel Caetano ARQUITETURA E ORGANIZAÇÃO DE COMPUTADORES PARALELISMO: SMP E PROCESSAMENTO VETORIAL Prof. Dr. Daniel Caetano 2012-1 Objetivos Compreender a Arquitetura SMP Conhecer a Organização SMP Apresentar o Conceito

Leia mais

Arquiteturas Paralelas

Arquiteturas Paralelas ORGANIZAÇÃO E ARQUITETURA DE COMPUTADORES Arquiteturas Paralelas Medidas de desempenho Alexandre Amory Edson Moreno Índice 2 1. Introdução 2. Medidas de Desempenho Introdução 3 Aumento de desempenho dos

Leia mais

Processamento Sísmico de Alto Desempenho na Petrobras

Processamento Sísmico de Alto Desempenho na Petrobras Processamento Sísmico de Alto Desempenho na Petrobras Thiago Teixeira E&P-Exp/Geof/Tecnologia Geofísica Julho/2011 Processamento Sísmico e Interpretação 2 Aquisição Sísmica Linhas Sísmicas Volumes de dados

Leia mais

Evolução da Computação de Alto Desempenho na Ótica da Lista. ou (Se um processador já é rápido, imaginem um sistema com 131.072 processadores :-)

Evolução da Computação de Alto Desempenho na Ótica da Lista. ou (Se um processador já é rápido, imaginem um sistema com 131.072 processadores :-) Evolução da Computação de Alto Desempenho na Ótica da Lista TOP500 ou (Se um processador já é rápido, imaginem um sistema com 131.072 processadores :-) MAC 412- Organizãção de Computadores - Siang W. Song

Leia mais

Introdução OpenMP. Nielsen Castelo Damasceno

Introdução OpenMP. Nielsen Castelo Damasceno Introdução OpenMP Nielsen Castelo Damasceno Computação de auto desempenho Processamento Paralelo Memória Distribuída e Compartilhada Modelo de programação OpenMP Métricas de Desempenho Computação de auto

Leia mais

Palestra - Depto. de Informática - UFMA

Palestra - Depto. de Informática - UFMA Palestra - Depto. de Informática - UFMA 1 a 5 de setembro de 2003 1/27 Estado de Arte da Computação Paralela de Alto Desempenho Siang Wun Song Universidade de São Paulo Evolução da Computação Os primeiros

Leia mais

UNIVERSIDADE FEDERAL DO PARÁ PRÓ-REITORIA DE PESQUISA E PÓS-GRADUAÇÃO DIRETORIA DE PESQUISA PROGRAMA INSTITUCIONAL DE BOLSAS DE INICIAÇÃO CIENTÍFICA

UNIVERSIDADE FEDERAL DO PARÁ PRÓ-REITORIA DE PESQUISA E PÓS-GRADUAÇÃO DIRETORIA DE PESQUISA PROGRAMA INSTITUCIONAL DE BOLSAS DE INICIAÇÃO CIENTÍFICA UNIVERSIDADE FEDERAL DO PARÁ PRÓ-REITORIA DE PESQUISA E PÓS-GRADUAÇÃO DIRETORIA DE PESQUISA PROGRAMA INSTITUCIONAL DE BOLSAS DE INICIAÇÃO CIENTÍFICA RELATÓRIO TÉCNICO CIENTÍFICO Período: Outubro/2015 a

Leia mais

Processadores para computação de alto desempenho

Processadores para computação de alto desempenho Processadores para computação de alto desempenho Aleardo Manacero Jr. DCCE/UNESP Grupo de Sistemas Paralelos e Distribuídos Introdução Nesta aula apresentaremos características de processadores e como

Leia mais

Organização de Computadores I

Organização de Computadores I Organização de Computadores I Aula 2 Material: Diego Passos http://www.ic.uff.br/~debora/orgcomp/pdf/parte2.pdf Organização de Computadores I Aula 2 1/29 Tópicos de Computação. de um Sistema de Computação..

Leia mais

Introdução Infraestruturas e Serviços Em desenvolvimento Necessidades de Computação Perspectivas futuras Consórcio GridFEUP

Introdução Infraestruturas e Serviços Em desenvolvimento Necessidades de Computação Perspectivas futuras Consórcio GridFEUP Computing@FEUP 2011 Consórcio GridFEUP CICA 13 de Julho de 2011 Índice 1 Introdução Agenda Estatísticas 2 Infraestruturas e Serviços Infraestruturas Serviços 3 Em desenvolvimento Cloud Computing 4 Necessidades

Leia mais

AULA 03: PROCESSAMENTO PARALELO: MULTIPROCESSADORES

AULA 03: PROCESSAMENTO PARALELO: MULTIPROCESSADORES ORGANIZAÇÃO E ARQUITETURA DE COMPUTADORES II AULA 03: PROCESSAMENTO PARALELO: MULTIPROCESSADORES Prof. Max Santana Rolemberg Farias max.santana@univasf.edu.br Colegiado de Engenharia de Computação MULTIPROCESSADORES

Leia mais

Computação de alto desempenho

Computação de alto desempenho Computação de alto desempenho Aleardo Manacero Jr. DCCE/UNESP Grupo de Sistemas Paralelos e Distribuídos Programa 1. Introdução 2. Processadores para CAD 3. Sistemas de memória 4. Programação paralela

Leia mais

Processadores para computação de alto desempenho

Processadores para computação de alto desempenho Processadores para computação de alto desempenho Aleardo Manacero Jr. DCCE/UNESP Grupo de Sistemas Paralelos e Distribuídos Introdução Nesta aula apresentaremos características de processadores e como

Leia mais

ARQUITETURA DE COMPUTADORES

ARQUITETURA DE COMPUTADORES RCM00014 Haswell wafer ARQUITETURA DE COMPUTADORES Prof. Luciano Bertini Site: http://www.professores.uff.br/lbertini/ Objetivos do Curso Entendimento mais aprofundado do funcionamento

Leia mais

SSC0611 Arquitetura de Computadores

SSC0611 Arquitetura de Computadores SSC0611 Arquitetura de Computadores 20ª Aula Arquiteturas Paralelas Arquitetura MIMD com Memória Compartilhada Profa. Sarita Mazzini Bruschi sarita@icmc.usp.br Arquiteturas MIMD As arquiteturas MIMD dividem-se

Leia mais

Universidade Federal do Rio de Janeiro Informática DCC/IM. Arquitetura de Computadores II. Arquiteturas MIMD. Arquiteturas MIMD

Universidade Federal do Rio de Janeiro Informática DCC/IM. Arquitetura de Computadores II. Arquiteturas MIMD. Arquiteturas MIMD Universidade Federal do Rio de Janeiro Informática DCC/IM Arquitetura de Computadores II Arquiteturas MIMD Arquiteturas MIMD As arquiteturas MIMD dividem-se em dois grandes modelos: Arquiteturas MIMD de

Leia mais

Sparse Matrix-Vector Multiplication on GPU: When Is Rows Reordering Worthwhile?

Sparse Matrix-Vector Multiplication on GPU: When Is Rows Reordering Worthwhile? Sparse Matrix-Vector Multiplication on GPU: When Is Rows Reordering Worthwhile? Paula Prata João Muranho Instituto de Telecomunicações Departamento de Informática Universidade da Beira Interior Instituto

Leia mais

Computação de alto desempenho

Computação de alto desempenho Computação de alto desempenho Aleardo Manacero Jr. DCCE/UNESP Grupo de Sistemas Paralelos e Distribuídos Programa 1. Introdução 2. Processadores para CAD 3. Sistemas de memória 4. Paralelismo usando bibliotecas

Leia mais

Monografia de Conclusão do Curso de Graduação em Ciência da Computação. 2

Monografia de Conclusão do Curso de Graduação em Ciência da Computação. 2 APLICAÇÃO DE BALANCEAMENTO DE CARGA COM CHARM++ NA PARALELIZANDO DE UM SIMULADOR DO MOVIMENTO DA ÁGUA NO SOLO 1 LOAD BALANCING APLICATION WITH CHARM++ IN THE PARALELIZATION OF A WATER MOVEMENT SIMULATOR

Leia mais

A Necessidade da Computação de Alto Desempenho para os Dias Atuais

A Necessidade da Computação de Alto Desempenho para os Dias Atuais A Necessidade da Computação de Alto Desempenho para os Dias Atuais Jeremias Moreira Gomes jeremiasmg@gmailcom 29 de setembro de 2016 Sumário 1 Introdução 2 3 4 5 6 Jeremias Moreira Gomes Confraria0day

Leia mais

SERVIÇO PÚBLICO FEDERAL MINISTÉRIO DA EDUCAÇÃO INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE MINAS GERAIS IFMG

SERVIÇO PÚBLICO FEDERAL MINISTÉRIO DA EDUCAÇÃO INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE MINAS GERAIS IFMG Matriz Curricular FGGCOMP - Bacharelado em Ciência da Computação 0. Disciplinas Obrigatórias FGGCOMP.00 Cálculo I FGGELET.00 - Cálculo I / FGGMATE.00 - Cálculo Diferencial e Integral I FGGCOMP.00 Geometria

Leia mais

SERVIÇO PÚBLICO FEDERAL MINISTÉRIO DA EDUCAÇÃO INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE MINAS GERAIS IFMG

SERVIÇO PÚBLICO FEDERAL MINISTÉRIO DA EDUCAÇÃO INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE MINAS GERAIS IFMG Matriz Curricular FGGCOMP - Bacharelado em Ciência da Computação 0. Disciplinas Obrigatórias FGGCOMP.00 Cálculo I FGGELET.00 - Cálculo I / FGGMATE.00 - Cálculo Diferencial e Integral I FGGCOMP.00 Geometria

Leia mais

ORGANIZAÇÃO E ARQUITETURA DE COMPUTADORES II AULA 02: PROCESSAMENTO PARALELO: PROCESSADORES VETORIAIS

ORGANIZAÇÃO E ARQUITETURA DE COMPUTADORES II AULA 02: PROCESSAMENTO PARALELO: PROCESSADORES VETORIAIS ORGANIZAÇÃO E ARQUITETURA DE COMPUTADORES II AULA 02: PROCESSAMENTO PARALELO: PROCESSADORES VETORIAIS Prof. Max Santana Rolemberg Farias max.santana@univasf.edu.br Colegiado de Engenharia de Computação

Leia mais

SERVIÇO PÚBLICO FEDERAL MINISTÉRIO DA EDUCAÇÃO INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE MINAS GERAIS IFMG

SERVIÇO PÚBLICO FEDERAL MINISTÉRIO DA EDUCAÇÃO INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE MINAS GERAIS IFMG Matriz Curricular FGGCOMP - Bacharelado em Ciência da Computação 0. Disciplinas Obrigatórias FGGCOMP.00 Cálculo I FGGELET.00 - Cálculo I / FGGMATE.00 - Cálculo Diferencial e Integral I FGGCOMP.00 Geometria

Leia mais

SERVIÇO PÚBLICO FEDERAL MINISTÉRIO DA EDUCAÇÃO INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE MINAS GERAIS IFMG

SERVIÇO PÚBLICO FEDERAL MINISTÉRIO DA EDUCAÇÃO INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE MINAS GERAIS IFMG Matriz Curricular FGGCOMP - Bacharelado em Ciência da Computação 0. Disciplinas Obrigatórias FGGCOMP.00 Cálculo I FGGELET.00 - Cálculo I / FGGMATE.00 - Cálculo Diferencial e Integral I FGGCOMP.00 Geometria

Leia mais

What is? Eduardo Viola Nicola Disciplina de IPPD

What is? Eduardo Viola Nicola Disciplina de IPPD What is? Eduardo Viola Nicola evnicola@inf.ufpel.edu.br Disciplina de IPPD Sumário 1)Introdução 2)Princípio Geral de Funcionamento 3)Exemplos de Aplicações 4)Modelo de Programação 5)Linguagens Suportadas

Leia mais

Microprocessadores II - ELE 1084

Microprocessadores II - ELE 1084 Microprocessadores II - ELE 1084 CAPÍTULO III PROCESSADORES P5 3.1 Gerações de Processadores 3.1 Gerações de Processadores Quinta Geração (P5) Pentium (586) 32 bits; Instruções MMX; Concorrente K5 (AMD).

Leia mais

ARQUITETURA DE COMPUTADORES

ARQUITETURA DE COMPUTADORES RCM00014 Haswell wafer ARQUITETURA DE COMPUTADORES Prof. Luciano Bertini Site: http://www.professores.uff.br/lbertini/ Objetivos do Curso Entendimento mais aprofundado do funcionamento

Leia mais

PROCESSADORES Unidade de Controle Unidade Aritmética e Lógica efetua memória de alta velocidade registradores Program Counter Instruction Register

PROCESSADORES Unidade de Controle Unidade Aritmética e Lógica efetua memória de alta velocidade registradores Program Counter Instruction Register PROCESSADORES Um computador digital consiste em um sistema interconectado de processadores, memória e dispositivos de entrada e saída. A CPU é o cérebro do computador. Sua função é executar programas armazenados

Leia mais

Visualização Distribuída utilizando Agrupamentos de PCs 10

Visualização Distribuída utilizando Agrupamentos de PCs 10 1 Introdução Sistemas de visualização vêm sendo utilizados em diversas áreas da indústria e do campo científico. Dentre essas áreas, CAD (Computer Aided Design), visualização científica e realidade virtual

Leia mais

AULA 06: PROGRAMAÇÃO EM MÁQUINAS PARALELAS

AULA 06: PROGRAMAÇÃO EM MÁQUINAS PARALELAS ORGANIZAÇÃO E ARQUITETURA DE COMPUTADORES II AULA 06: PROGRAMAÇÃO EM MÁQUINAS PARALELAS Prof. Max Santana Rolemberg Farias max.santana@univasf.edu.br Colegiado de Engenharia de Computação PROGRAMAÇÃO PARALELA

Leia mais

Arquitetura e Organização de Computadores

Arquitetura e Organização de Computadores Arquitetura e Organização de Computadores Identificar os recursos de Hardware necessários para execução do software planejado na unidade curricular de Programação Orientada a Objetos e Laboratório de Redes

Leia mais

Introdução à Informática. Aula 1

Introdução à Informática. Aula 1 Introdução à Informática Aula 1 Site da disciplina sites.google.com/site/ifbagustavo/ Ementa Introdução ao HARDWARE; Conceitos e operacionais; utilização de sistemas Utilização de Processador de texto;

Leia mais

Material baseado nos slides de: Marcos José Santana Regina Helena Carlucci Santana

Material baseado nos slides de: Marcos José Santana Regina Helena Carlucci Santana Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Departamento de Sistemas de Computação SSC643 Avaliação de Desempenho de Sistemas Computacionais Aula 4 Sarita Mazzini Bruschi

Leia mais

Benchmarks. 1. Introdução

Benchmarks. 1. Introdução Benchmarks 1. Introdução Um Benchmark é um programa de teste de desempenho que analisa as características de processamento e de movimentação de dados de um sistema de computação com o objetivo de medir

Leia mais

AULA 2. Prof.: Jadiel Mestre. Introdução à Informática. Introdução à Informática Componentes de um Sistema de Informação

AULA 2. Prof.: Jadiel Mestre. Introdução à Informática. Introdução à Informática Componentes de um Sistema de Informação AULA 2 Prof.: Jadiel Mestre. Componentes de um Sistema de Informação Os componentes de um sistema de informação são divididos em três partes 2 1 Componentes físicos do computador Dispositivos de Entrada/Saída

Leia mais

Usando o benchmark Rodinia para comparação de OpenCL e OpenMP em aplicações paralelas no coprocessador Intel Xeon Phi

Usando o benchmark Rodinia para comparação de OpenCL e OpenMP em aplicações paralelas no coprocessador Intel Xeon Phi Usando o benchmark Rodinia para comparação de OpenCL e OpenMP em aplicações paralelas no coprocessador Intel Xeon Phi Leonardo Tavares Oliveira 1, Ricardo Menotti 1 1 Departamento de Computação Universidade

Leia mais

ORGANIZAÇÃO E ARQUITETURA DE COMPUTADORES I AULA 02: INTRODUÇÃO

ORGANIZAÇÃO E ARQUITETURA DE COMPUTADORES I AULA 02: INTRODUÇÃO ORGANIZAÇÃO E ARQUITETURA DE COMPUTADORES I AULA 02: INTRODUÇÃO Prof. Max Santana Rolemberg Farias max.santana@univasf.edu.br Colegiado de Engenharia de Computação DO QUE É COMPOSTO UM SISTEMA COMPUTACIONAL?

Leia mais

Programação Paralela e Distribuída

Programação Paralela e Distribuída Programação Paralela e Distribuída Referência: Slides for Parallel Programming Techniques & Applications Using Networked Workstations & Parallel Computers 2nd Edition, by B. Wilkinson & M. Allen, 2004

Leia mais

Introdução à Programação Aula 01. Prof. Max Santana Rolemberg Farias Colegiado de Engenharia de Computação

Introdução à Programação Aula 01. Prof. Max Santana Rolemberg Farias Colegiado de Engenharia de Computação Introdução à Programação Aula 01 Prof. Max Santana Rolemberg Farias max.santana@univasf.edu.br Colegiado de Engenharia de Computação QUAL O OBJETIVO DA DISCIPLINA? Objetivo Tornar vocês (alunos) capazes

Leia mais

SERVIÇO PÚBLICO FEDERAL MINISTÉRIO DA EDUCAÇÃO INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE MINAS GERAIS IFMG

SERVIÇO PÚBLICO FEDERAL MINISTÉRIO DA EDUCAÇÃO INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE MINAS GERAIS IFMG LEI Nº.9, DE 9//00, PUBLICADA NO DOU DE 0//00, SEÇÃO I, PAGS. I - Rua São Luiz Gonzaga, s/n - São Luiz - Formiga - MG - CEP: 0-000 Tel: ()-09 - Site: www.formiga.ifmg.edu.br Matriz Curricular FGGCOMP -

Leia mais

1.1 Descrição do problema A programação genética (PG) é uma meta-heurística utilizada para gerar programas de computadores, de modo que o computador

1.1 Descrição do problema A programação genética (PG) é uma meta-heurística utilizada para gerar programas de computadores, de modo que o computador 1 Introdução 1.1 Descrição do problema A programação genética (PG) é uma meta-heurística utilizada para gerar programas de computadores, de modo que o computador possa resolver problemas de forma automática

Leia mais

Computação científica utilizando placas gráficas

Computação científica utilizando placas gráficas Brasília, dezembro de 2008 Universidade de Brasília - Faculdade do Gama Sumário Introdução Sumário Introdução Arquitetura da GPU Sumário Introdução Arquitetura da GPU Modelo de programação Sumário Introdução

Leia mais

1. Conceitos Básicos de Computação

1. Conceitos Básicos de Computação Introdução à Computação I IBM1006 1. Conceitos Básicos de Computação Prof. Renato Tinós Local: Depto. de Computação e Matemática (FFCLRP/USP) 1 Principais Tópicos 1.Conceitos Básicos de Computação 1.1.

Leia mais

Implementação de um escalonador de processos em GPU

Implementação de um escalonador de processos em GPU Implementação de um escalonador de processos em GPU Guilherme Martins guilhermemartins@usp.br 6 de abril de 2017 Guilherme Martins (guilhermemartins@usp.br) Implementação de um escalonador de processos

Leia mais

SERVIÇO PÚBLICO FEDERAL MINISTÉRIO DA EDUCAÇÃO INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE MINAS GERAIS IFMG

SERVIÇO PÚBLICO FEDERAL MINISTÉRIO DA EDUCAÇÃO INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE MINAS GERAIS IFMG LEI Nº.9, DE 9//00, PUBLICADA NO DOU DE 0//00, SEÇÃO I, PAGS. I - Rua São Luiz Gonzaga, s/n - São Luiz - Formiga - MG - CEP: 70-000 Tel: (7)-09 - Site: www.formiga.ifmg.edu.br Matriz Curricular FGGCOMP

Leia mais

4/11/2010. Computadores de grande porte: mainframes e supercomputadores. Sistemas Computacionais Classificação. Sistemas Computacionais Classificação

4/11/2010. Computadores de grande porte: mainframes e supercomputadores. Sistemas Computacionais Classificação. Sistemas Computacionais Classificação Arquitetura de Computadores Quanto ao princípio de construção Computador Analógico: Computadores de grande porte: mainframes e supercomputadores Prof. Marcos Quinet Universidade Federal Fluminense UFF

Leia mais

Organização de Computadores II. Arquiteturas MIMD

Organização de Computadores II. Arquiteturas MIMD Organização de Computadores II Arquiteturas MIMD Arquiteturas UMA Arquiteturas com memória única global. Tempo de acesso uniforme para todos os nós de processamento. Nós de processamento e memória interconectados

Leia mais

GPU (Graphics Processing Unit) Bruno Padilha Gregory De Bonis Luciana Kayo

GPU (Graphics Processing Unit) Bruno Padilha Gregory De Bonis Luciana Kayo GPU (Graphics Processing Unit) Bruno Padilha - 5745282 Gregory De Bonis - 6431180 Luciana Kayo - 6430992 O que é? O que é? - Processador auxiliar responsável principalmente por operações de ponto flutuante

Leia mais

Programação de Alto Desempenho - 2. Prof: Carla Osthoff

Programação de Alto Desempenho - 2. Prof: Carla Osthoff Programação de Alto Desempenho - 2 Prof: Carla Osthoff E-mail: osthoff@lncc.br 3- Modelos de programação paralela Shared Memory/Threads Posix Win32 treads OpenMP Message Passing MPI Data Parallel OpenCL/Cuda

Leia mais

SIST706 Sistemas Distribuídos

SIST706 Sistemas Distribuídos Slide02 Arquiteturas de SD SIST706 Sistemas Distribuídos 2013/1 Prof. Jéfer Benedett Dörr @: prof.jefer@gmail.com profjefer.wordpress.com Notícias Cultura Livre Fontes de Notícias itil LPI Transistores:

Leia mais

Bacharelado em Sistemas de Informação Sistemas Operacionais. Prof. Filipo Mór

Bacharelado em Sistemas de Informação Sistemas Operacionais. Prof. Filipo Mór Bacharelado em Sistemas de Informação Sistemas Operacionais Prof. Filipo Mór WWW.FILIPOMOR.COM - REVISÃO ARQUITETURAS PARALELAS Evolução das Arquiteturas Evolução das Arquiteturas Entrada CPU Saída von

Leia mais

MONTAGEM E MANUTENÇÃO DE COMPUTADORES

MONTAGEM E MANUTENÇÃO DE COMPUTADORES Álvaro Elias Flôres alvaro.flores@sc.senai.br MONTAGEM E MANUTENÇÃO DE COMPUTADORES Introdução A atividade de um computador pode ser definida por um modelo simples: Introdução Na etapa de processamento

Leia mais

The future is parallel but it may not be easy

The future is parallel but it may not be easy The future is parallel but it may not be easy Adriano Tabarelli, Alex Morinaga, Caio Silva, Cássia Ferreira, Daniel Santos, Eduardo Apolinário, Hugo Posca, Thiago Batista, Paulo Floriano Universidade de

Leia mais

Ferramentas de Suporte

Ferramentas de Suporte Cálculo Numérico Módulo I Prof Reinaldo Haas Como estudar Métodos Numéricos? 2 Uso do método numérico Computador Programa Desenvolver Utilizar Verificar validade dos resultados obtidos 3 Programas para

Leia mais

Proposta de Melhoria de uma Implementação Paralela para GPUs Usando CUDA - Estudo de Caso em Modelo Atmosférico

Proposta de Melhoria de uma Implementação Paralela para GPUs Usando CUDA - Estudo de Caso em Modelo Atmosférico Proposta de Melhoria de uma Implementação Paralela para GPUs Usando CUDA - Estudo de Caso em Modelo Atmosférico Fabiano Cassol de Vargas, Matheus Beniz Bieger, Claudio Schepke 1 Laboratório de Estudos

Leia mais

Multiprogramação leve em arquiteturas multi-core

Multiprogramação leve em arquiteturas multi-core Multiprogramação leve em arquiteturas multi-core Prof. Dr. Departamento de Informática Universidade Federal de Pelotas Sumário Arquiteturas multi-core Programação multithread Ferramentas de programação

Leia mais