CAP-387(2016) Tópicos Especiais em

Documentos relacionados
CAP-387(2016) Tópicos Especiais em

Máquinas mais rápidas do mundo

Evolução da Computação de Alto Desempenho sob a Ótica da Lis. ou (Se um processador já é rápido, imaginem um sistema com processadores :-)

Evolução da Computação de Alto Desempenho sob a Ótica da Lis. ou (Se um processador já é rápido, imaginem um sistema com processadores :-)

Supercomputador Pleiades

Evolução da Computação de Alto Desempenho sob a Ótica da Lis. ou (Se um processador já é rápido, imaginem um sistema com processadores :-)

SGI. SGI Altix. Supercomputadores de memória compartilhada. Paulo Matias. Universidade de São Paulo

TOP Arquitetura dos supercomputadores

UNIVERSIDADE ESTADUAL DE PONTA GROSSA SETOR DE CIÊNCIAS AGRÁRIAS E DE TECNOLOGIAS DEPARTAMENTO DE INFORMÁTICA

Celso L. Mendes LAC /INPE

Computação de Alto Desempenho Clusters de PCs

Ambientes de computação de alto desempenho no LNCC

CAP-387(2016) Tópicos Especiais em

Máquinas mais rápidas do mundo Computação Paralela e Distribuída MAC Jorge Augusto Melegati Gonçalves N ō USP

CAP-387(2016) Tópicos Especiais em

Apresentação dos Serviços para Processamento de Dados de Alto Desempenho disponibilizados pela InterNuvem

APPRO XTREME-X SERVER Papers and Abstracts

Computação paralela. Nielsen Castelo Damasceno

SSC510 Arquitetura de Computadores. 10ª aula

CHPC Computational Platforms

A Necessidade da Computação de Alto Desempenho para os Dias Atuais

Santos Dumont - LNCC: Utilização e Pesquisa. Carla Osthoff e Roberto Souto CENAPAD/LNCC Laboratório Nacional de Computação Científica

Siang Wun Song - IME/USP e Universidade Federal do ABC. MAC setembro de 2010

30/5/2011. Sistemas computacionais para processamento paralelo e distribuído

Computação de alto desempenho

Intel Xeon Phi. Abilio. Funcionamento. Modelo de. Abilio. Linguagens Suportadas. Exemplos de Produtos no Mercado. 13 de agosto de / 22

Aula 01 - Introdução. Prof. Fernando F. Costa

CAP-387(2016) Tópicos Especiais em

Arquitetura de Computadores Paralelos. Tipos e Paralelismo Dispositivos HPC Métodos e SpeedUp

sistema de armazenamento (SAN) ligado com um switch fibre dois sistemas de inteligação Myrinet 10 Gb Ethernet 1 Gb

Computação de alto desempenho

Introdução Infraestruturas e Serviços Em desenvolvimento Necessidades de Computação Perspectivas futuras Consórcio GridFEUP

A Evolução dos Computadores: do Ábaco ao ENIAC ao Sunway

O estado de arte: a evolução de computação de alto desempenho

O Sistema de Processamento Paralelo Netuno

Curso de Computação Híbrida Reconfigurável Aula 1

Evolução do computador: do ábaco ao ENIAC ao Sunway

CAP-387(2016) Tópicos Especiais em

CAP-387(2016) Tópicos Especiais em

MAC 412 Organização de Computadores

Suporte à Execução Eficiente de Aplicações em Plataformas com Paralelismo Multi-Nível

COMPUTAÇÃO PARALELA COM ACELERADORES GPGPU 1. Emilio Hoffmann De Oliveira 2, Edson Luiz Padoin 3.

Introdução à Programação Paralela através de Padrões. Denise Stringhini Calebe Bianchini Luciano Silva

AULA 2. Prof.: Jadiel Mestre. Introdução à Informática. Introdução à Informática Componentes de um Sistema de Informação

CAP-387(2016) Tópicos Especiais em

Introdução aos computadores

ORGANIZAÇÃO E ARQUITETURA DE COMPUTADORES II AULA 04: PROCESSAMENTO PARALELO: MULTICOMPUTADOR

Hardware. Disciplina: Teoria e Fundamentos de Sistemas de Informação. Professor: Thiago Silva Prates

Uma breve história da supercomputação

OCEL001 Comércio Eletrônico Módulo 08_2: Data Center Hardware Servidores. Prof. Charles Christian Miers.

1. Conceitos Básicos de Computação

Material baseado nos slides de: Marcos José Santana Regina Helena Carlucci Santana

Palestra - Depto. de Informática - UFMA

Em um intervalo de poucos meses,

periféricos: interfaces humano-computador (HCI) arquivo de informação comunicações

Paralelização de Algoritmos de CFD em Clusters Multi-Core MC7. Escola de Verão Arquiteturas Multi-Core

VALSPE Soluções ATAS de Registros de Preços Vigentes

Infraestrutura para SAP HANA

Computação de Alto Desempenho na Ótica da Lista TOP500 ou. (Se um computador já é rápido, imaginem um sistema com computdores :-)

Organização de Computadores I

Oracle Database Appliance X6-2 Panorama geral

A Evolução dos Computadores: do ENIAC ao TianHe2

Processamento Sísmico de Alto Desempenho na Petrobras

CAP-387(2016) Tópicos Especiais em

International FWI Workshop Natal, Brazil 01st Sep 2015

CAP-387(2016) Tópicos Especiais em

Organização de Computadores Computação paralela; Sistema de entrada e saída (I/O); Suporte a Sistema operacional. Professor: Francisco Ary

Introdução à Computação

CAP-387(2016) Tópicos Especiais em

Uma visão geral sobre computadores e Internet

CAP-387(2016) Tópicos Especiais em

Implementação de Estrutura de Cloud Privada para Investigação e Serviços da UAlg

Marilda Ferrari Mendes Giafarov Sidinei Donisete Marin

Uma breve história da supercomputação

REGISTRO DE PREÇOS. Equipamentos de Informática. Servidor Rack Blade, Switch Storage systechtecnologia.com.br

Conceitos sobre Computadores

Testbed para experimentação em computação em nuvem: Projeto CloudLab-BR

Otimização do desempenho (no h/w) Objectivo

Otimização do desempenho (no h/w) Objectivo. Problemas: Estrutura do tema Avaliação de Desempenho (IA-32)

AJProença, Sistemas de Computação, UMinho, 2017/ ou + Unidades (Centrais) de Processamento (CPU)

Aplicação de Processamento Paralelo com GPU a Problemas de Escoamento Monofásico em Meios Porosos. Bruno Pereira dos Santos Dany Sanchez Dominguez

Otimização do desempenho (no h/w) Objetivo

Broadband Engine Cell Processor. Arquitetura e Organização de Processadores (CPM237) Rodrigo Bittencourt Motta

Arquitetura e Organização de Computadores

AULA 01: APRESENTAÇÃO

Arquitetura de Computadores

Supercomputador IBM Roadrunner Angelo Gonçalves da Luz Centro Politécnico Universidade Católica de Pelotas (UCPel)

Arquitetura de Computadores. Infraestrutura de TI: Hardware

Parallel Computing Paradigms

Como programar um computador com processadores? ou: Oportunidades e Desafios da Computação Paralela

Aula 02: Tendências Tecnológicas e Custos

Multi-processamento. Arquitecturas MIMD de memória partilhada Multi-cores heterogéneos Multi-processadores

TABELA DA FAMÍLIA DA HITACHI VIRTUAL STORAGE PLATFORM. Hitachi Virtual G SFF 720 LFF 720 SSD 720 FMD

A Evolução dos Computadores: do ENIAC ao Jaguar

A SOLUS... SOLUS Tecnologia é uma empresa especializada em analisar e definir as melhores soluções do mercado para sua empresa. Nosso foco é sugerir

João Marcelo Uchôa de Alencar

Sob medida para seu sistema de segurança!

Computação Aplicada:

Sob medida para seu sistema de segurança!

Transcrição:

CAP-387(2016) Tópicos Especiais em Computação Aplicada: Construção de Aplicações Massivamente Paralelas Aula 2: Sistemas Massivamente Paralelos Atuais Celso L. Mendes, Stephan Stephany LAC /INPE Emails: celso.mendes@inpe.br, stephan.stephany@inpe.br

Lista Top500 Finalidade Listar os 500 supercomputadores mais rápidos no mundo Foco na capacidade numérica execução do Linpack Periodicidade 2 edições por ano: Junho (ISC-Europa) e Novembro (SC-EUA) Iniciada em 1993 Processo de Participação Executar o Linpack sem mudanças Reportar valor de R max em flops Reportar também R peak : máximo teórico Sigla Unidade Flops/s MF Megaflops 10 6 GF Gigaflops 10 9 TF Teraflops 10 12 PF Petaflops 10 15 EF Exaflops 10 18 2

Lista Top500 Atual Edição mais recente: Junho/2016 (www.top500.org) Sistema #1: Processador chinês, many-core, RISC Sistema #2: Intel Xeon + Aceleradores Intel Xeon-Phi Sistema #3: Cray XK7 (GPUs), 200 racks, Gemini interconnect Sistema #4: BlueGene/Q (descontinuado) Sistema #5: Processador Sparc Posição Sistema País R max (PFlops) R peak (PFlops) 1 Sunway TaihuLight (NRCPC) China 93,01 125,44 2 Tianhe-2 (NUDT) China 33,86 54,90 3 Titan (Cray) EUA 17,59 27,11 4 Sequoia (IBM) EUA 17,17 20,13 5 K Computer (Fujitsu) Japão 10,51 11,28 3

Lista Top500 - Geografia Participação por países: Junho/2016 (número de sistemas) China > EUA pela primeira vez! 4

Lista Top500 - Fabricantes Participação por fabricantes: Junho/2016 (núm. de sistemas) Note: HP + SGI > 30% 5

Lista Top500 - Fabricantes Participação por fabricantes: Junho/2016 (desempenho total) OBS: fabricantes na mesma ordem do slide anterior 6

Lista Top500 - Evolução Evolução ao longo dos anos Soma (desempenho agregado) Sistema #1 Sistema #500 Avanço maior que a lei de Moore! (fatores tecnológicos e de arquitetura) 7

Sistema #1: Sunway TaihuLight 8

Sistema #1: Sunway TaihuLight Sunway TaihuLight China, 2016 Instalado no centro de supercomputação em Wuxi URL: http://www.netlib.org/utk/people/jackdongarra/papers/sunway-report-2016.pdf Total de 10.649.600 núcleos, em 40.960 nós (1 chip por nó) Desempenho total de pico: 125 Pflops/s, em 40 racks Desempenho no Linpack: 93 Pflops/s (~ 74.4% do pico) Linpack: código numérico intensivo Desempenho no HPCG: 0.3% do pico! HPCG: código numérico + memória + comunicação Conclusão: Sistema extremamente desbalanceado 9

Sistema #1: Sunway TaihuLight Processador: SW26010 (Shanghai, China) Arquitetura many-core, RISC Desempenho de pico de 11.6 Gflops/s em cada núcleo 4 grupos de núcleos; cada grupo: 64 núcleos (CPE) mais 1 de controle (MPE) 260 núcleos por chip: > 3 TFlops/s por chip 32 GB de mem. externa por nó, 1.2 PB total Grupo de núcleos: 10

Sunway TaihuLight - Hierarquia 2 chips por cartão (2 nós) 4 cartões por placa: 2+2 (8 nós) 32 placas por Supernó (256 nós) 4 Supernós por rack (1024 nós) 11

Sunway TaihuLight - Sistema 12

Além do Top500 Sistema Blue Waters Univ. Illinois, EUA Financiado pela NSF (equivalente ao CNPq) Cray XE6/XK7, 13.3 PF de pico Arquitetura similar ao Titan/XK7 (#3 na lista Top500) Desempenho de pico maior que o #5 da lista atual Várias razões para não entrar no Top500: Sistema híbrido: CPU (XE6), CPU+GPU (XK7) Sistema balanceado: Capacidades: computacional, armazenamento, I/O Capaz de atender a vários tipos de aplicações Avaliação: métrica SPP (Sustained Petascale Performance) Mede o desempenho sustentado, em códigos reais Mais que 1 PFlops/s medido em várias aplicações 13

Sistema Blue Waters Aggregate Memory 1.6 PB 10/40/100 Gb Ethernet Switch External Servers IB Switch >1 TB/sec 120+ Gb/sec 100 GB/sec Spectra Logic: 300 usable PB Sonexion: 26 usable PB 14

Arquitetura do Blue Waters Rede Gemini (HSN) DSL 48 Nodes Resource Manager (MOM) 64 Nodes BOOT 2 Nodes SDB 2 Nodes XE6 Compute Nodes - 5,688 Blades 22,640 Nodes 362,240 FP (bulldozer) Cores 724,480 Integer Cores 4 GB per FP core RSIP 12Nodes Network GW 8 Nodes Reserved 74 Nodes Cray XE6/XK7-288 Gabinetes XK7 GPU Nodes 1,056 Blades 4,224 Nodes 33,792 FP Cores 4,224 K20X GPUs, 4 GB per FP core LNET Routers 582 Nodes Boot RAID SMW Boot Cabinet SCUBA H2O Login 4 Nodes Import/Export Nodes InfiniBand fabric 10/40/100 Gb Ethernet Switch HPSS Data Mover Nodes Sonexion 25+ usable PB online storage 36 racks Cyber Protection IDPS Management Node NCSAnet esservers Cabinets Near-Line Storage 300+ usable PB 15

Números do Blue Waters Total de Gabinetes XE/XK: 288 Gabinetes XE: 243 Gabinetes XK: 45 Desempenho de Pico: 13.3 PF CPUs x86: 7.1 PF GPUs: 6.2 PF Memória: 1.6 PB Disco: 26 PB Arquivamento em Fita: ~ 300 PB 16

Interconexão no Blue Waters Blue Waters Torus 3D 24 x 24 x 24 InfiniBand Login Servers Network(s) Y GigE Fibre Channel SMW X Z Interconnect Network Infiniband Boot Raid Lustre Compute Nodes Cray XE6 Compute Cray XK7 Accelerator Nós de Serviço espalhados pelo torus Operating System Boot System Database Service Nodes Login/Network Lustre File System LNET Routers Login Gateways Network 17

Usuários do Blue Waters 18

Aplicações no Blue Waters Códigos PRAC (80% do tempo de máquina) Sumário Total: 35 amostras Fortran: 25 (71%) C: 16 (46%) C++: 20 (56%) MPI: 31 (89%) OpenMP: 17 (49%) GPU: 10 (29%) 19