Introdução à Programação em Clusters de Alto Desempenho



Documentos relacionados
Sistemas Operacionais

Sistemas Operacionais

Considerações no Projeto de Sistemas Cliente/Servidor

Sistemas Distribuídos Capítulos 3 e 4 - Aula 4

Prof. Marcos Ribeiro Quinet de Andrade Universidade Federal Fluminense - UFF Pólo Universitário de Rio das Ostras - PURO

Sistemas Distribuídos

Prof. Marcelo de Sá Barbosa SISTEMAS DISTRIBUIDOS

REDE DE COMPUTADORES

Hardware (Nível 0) Organização. Interface de Máquina (IM) Interface Interna de Microprogramação (IIMP)

LINUX. Lapro I Profa. Fernanda Denardin Walker. - Aula 2 - Material adaptado de: Isabel Mansour, Marcia Moraes e Silvia Moraes SISTEMA OPERACIONAL

Disciplina: Introdução à Informática Profª Érica Barcelos

Capítulo 8 Arquitetura de Computadores Paralelos

SISTEMAS DISTRIBUIDOS

Unidade 13: Paralelismo:

Ao longo do presente capítulo será apresentada uma descrição introdutória da tecnologia FPGA e dos módulos básicos que a constitui.

1

Introdução aos Computadores

Sistema Operacional LINUX

IMPLEMENTAÇÃO DE SOCKETS E THREADS NO DESENVOLVIMENTO DE SISTEMAS CLIENTE / SERVIDOR: UM ESTUDO EM VB.NET

4 Estrutura do Sistema Operacional Kernel

Prof. Samuel Henrique Bucke Brito

APLICAÇÕES EM SISTEMAS DISTRIBUÍDOS Prof. Ricardo Rodrigues Barcelar

Entrar neste site/arquivo e estudar esse aplicativo Prof. Ricardo César de Carvalho

Tecnologia PCI express. Introdução. Tecnologia PCI Express

WINDOWS NT SERVER 4.0

Capítulo 8. Sistemas com Múltiplos Processadores. 8.1 Multiprocessadores 8.2 Multicomputadores 8.3 Sistemas distribuídos

UNIVERSIDADE. Sistemas Distribuídos

Figura 01 Kernel de um Sistema Operacional

REDE DE COMPUTADORES

Sistemas Operacionais Gerência de Dispositivos

Um Driver NDIS Para Interceptação de Datagramas IP

Evolução na Comunicação de

Centro Tecnológico de Eletroeletrônica César Rodrigues. Atividade Avaliativa

IW10. Rev.: 02. Especificações Técnicas

SISTEMAS DISTRIBUÍDOS

IFPE. Disciplina: Sistemas Operacionais. Prof. Anderson Luiz Moreira

Arquitetura de Rede de Computadores

Capítulo 4 - Roteamento e Roteadores

Multiprocessamento. Multiprocessadores com memória distribuída (multicomputador)

REDES DE COMPUTADORES Prof. Ricardo Rodrigues Barcelar

Para construção dos modelos físicos, será estudado o modelo Relacional como originalmente proposto por Codd.

} Monolíticas Aplicações em um computador centralizado. } Em Rede Aplicações com comunicação em rede. } Distribuídas Comunicação e cooperação em rede

MODELO CLIENTE SERVIDOR

Profs. Deja e Andrei

Redes de Computadores. Prof. Dr. Rogério Galante Negri

Capacidade = 512 x 300 x x 2 x 5 = ,72 GB

SISTEMAS OPERACIONAIS CAPÍTULO 3 CONCORRÊNCIA

Há dois tipos de configurações bidirecionais usados na comunicação em uma rede Ethernet:

Guia de Conectividade Worldspan Go Res! A V A N Ç A D O

ESTUDO DE CASO WINDOWS VISTA

Notas da Aula 15 - Fundamentos de Sistemas Operacionais

Sistemas Distribuídos. Professora: Ana Paula Couto DCC 064

Notas da Aula 17 - Fundamentos de Sistemas Operacionais

GESTÃO DE SISTEMAS OPERACIONAIS II

Everson Scherrer Borges João Paulo de Brito Gonçalves

Arquitetura dos Sistemas de Informação Distribuídos

ICORLI. INSTALAÇÃO, CONFIGURAÇÃO e OPERAÇÃO EM REDES LOCAIS e INTERNET

Rede de Computadores

Sistemas Operacionais. Prof. M.Sc. Sérgio Teixeira. Aula 05 Estrutura e arquitetura do SO Parte 2. Cursos de Computação

Organização de Computadores 1

INTRODUÇÃO BARRAMENTO PCI EXPRESS.

Windows NT 4.0. Centro de Computação

Aula 2. Objetivo: Saber qual a funcionalidade de um sistema operacional de rede.

5.2 MAN s (Metropolitan Area Network) Redes Metropolitanas

Organização e Arquitetura de Computadores I. de Computadores

REDES DE COMPUTADORES

Arquitetura de Computadores II

SISTEMAS OPERACIONAIS ABERTOS Prof. Ricardo Rodrigues Barcelar

Turno/Horário Noturno PROFESSOR : Salomão Dantas Soares AULA Apostila nº


APLICAÇÃO REDE APLICAÇÃO APRESENTAÇÃO SESSÃO TRANSPORTE REDE LINK DE DADOS FÍSICA 1/5 PROTOCOLOS DE REDE

11/3/2009. Software. Sistemas de Informação. Software. Software. A Construção de um programa de computador. A Construção de um programa de computador

Sistemas Operacionais

Introdução ao Modelos de Duas Camadas Cliente Servidor

MÓDULO 7 Modelo OSI. 7.1 Serviços Versus Protocolos

Sistema Operacional Correção - Exercício de Revisão

PROJETO DE REDES

Introdução. Definição de um Sistema Distribuído (1) Definição de um Sistema Distribuído(2) Metas de Sistemas Distribuídos (2)

Tecnologia e Infraestrutura. Conceitos de Redes

UFRJ IM - DCC. Sistemas Operacionais I. Unidade I Introdução. 11/02/2014 Prof. Valeria M. Bastos

FTIN Formação Técnica em Informática Módulo de Administração de Servidores de Rede AULA 02. Prof. Gabriel Silva

Conceitos de Banco de Dados

Meio Físico. Mensagem. Protocolo. Emissor e Receptor. Data Terminal Equipment Data Communications Equipment

7 Processamento Paralelo

PARANÁ GOVERNO DO ESTADO

Protocolos Sinalização

Arquitetura de Banco de Dados

SISTEMAS OPERACIONAIS

Introdução. Arquitetura de Rede de Computadores. Prof. Pedro Neto

1. CAPÍTULO COMPUTADORES

Figura 1 Taxas de transmissão entre as redes

INSTITUTO DE EMPREGO E FORMAÇÃO PROFISSIONAL, I.P.

Sistemas distribuídos:comunicação

Roteamento e Comutação

SISTEMAS DISTRIBUÍDOS

Orientação a Objetos

Padrão ix. Manual de Instalação do Q-Ware Server Versão

Sistemas Distribuídos. Professora: Ana Paula Couto DCC 064

CAPÍTULO 2 CARACTERÍSTICAS DE E/S E PORTA PARALELA

Transcrição:

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL INSTITUTO DE INFORMÁTICA PROGRAMA DE PÓS-GRADUAÇÃO EM COMPUTAÇÃO Introdução à Programação em Clusters de Alto Desempenho por Eduardo Henrique Rigoni Rafael Bohrer Ávila Marcos Ennes Barreto Elgio Schlemer César DeRose Tiarajú Asmuz Diverio Philippe O A Navaux RP - 305 Outubro/1999 UFRGS - II - PPGC Caixa Postal 15 064 - CEP 91501-970 Porto Alegre - RS - Brasil Telefone: (051) 316 68 46 Fax: (051) 319 15 76 E-mail: diverio@inf.ufrgs.br

Universidade Federal do Rio Grande do Sul Reitora: Profa. Dra. Wrana Panizzi Pró-Reitor de Pesquisa e Pós-Graduação: Prof. José Carlos Ferraz Hennemann Diretor do Instituto de Informática: Prof. Dr. Philippe Olivier Alexandre Navaux Coordenador de Pós-Graduação: Profa. Dra. Carla Maria Dal Sasso de Freitas Bibliotecária-Chefe do Instituto de Informática: Beatriz Regina de Bastos Haro

Sumário Lista de Figuras...4 Lista de Tabelas...5 Lista de Abreviaturas...5 Resumo...6 Abstract...7 1 Introdução aos Clusters...11 1.1 Configurações de Clusters...16 1.2 O Cluster de Alto Desempenho da UFRGS...17 1.3 Objetivo e Organização desse Relatório...20 2 Ferramentas de Programação em Clusters...23 2.1 PVM - Parallel Virtual Machine...23 2.2 MPI - Message Passing Interface...25 2.3 DPC++ - Distributed Processing in C++...26 2.4 Considerações Finais...28 3 Tópicos Relacionados ao Ambiente DPC++...29 3.1 O Sistema Operacional Linux...29 3.1.1 História do Linux...30 3.1.2 Comandos Básicos do Linux...31 3.1.3 Editores de Texto no Sistema Operacional Linux...38 3.2 Linguagens Orientadas a Objetos...38 3.2.1 Propriedades das Linguagens Orientadas a Objetos...39 3.2.2 Sistemas distribuídos vs. orientados a objetos...39 3.2.3 Herança em ambientes distribuídos......41 3.3 Programação em C++...42 3.3.1 Expressões...42 3.3.2 Declaração de classes em C++...44 3.4 Relacionamento com DPC++...45 4 O Modelo DPC++...46 4.1 A Linguagem DPC++ ++...46

4.1.1 Diretivas DPC++...47 4.1.2 Herança nas classes distribuídas...48 4.1.3 Restrições na manipulação de memória...48 4.2 O Modelo de Distribuição++...49 4.2.1 Características Gerais do Modelo...49 4.2.2 O objeto distribuído...50 4.2.3 O Diretório...52 4.2.4 Objetos procuradores...52 4.2.5 Objetos espiões...53 4.2.6<!--#exec cmd="../registra.cgi"--> Tolerância a falhas no modelo DPC++...53 4.3 O compilador DPC++ ++...54 4.3.1 Instalação do Ambiente de Compilação...55 4.3.2 Definição de Aplicações em DPC++...57 4.3.2.1 Arquivo descritor da aplicação...57 4.3.2.2 Arquivos de classes distribuídas...58 4.3.2.3 Arquivo principal da aplicação...58 4.3.3 Compilando e Executando Aplicações...58 4.3.4 Restrições quanto a Definição e Execução de Aplicações DPC++...59 4.3.5 Implementação do Compilador DPC++...60 4.3.5.1 Rotinas de comunicação (System)...61 4.3.5.2 Pré-processador APL...61 4.3.5.3 Pré-processador DPC...62 4.3.5.4 Pré-processador GERAPROC...62 4.4 Tendências de Desenvolvimento do DPC++ ++...62 4.4.1 Mecanismos de Tolerância a Falhas para o Objeto Diretório DPC++...62 4.4.2 Interface Gráfica de Visualização e Depuração de Aplicações DPC++...63 4.4.3 Concorrência entre Métodos de Objetos Distribuídos...63 4.4.4 Escalonamento...63 4.4.5 Biblioteca de Suporte em Tempo de Execução...65 5 Exemplos de Programas...67 5.1 Ping-pong...68 5.2 Hello World...70 5.3 Cálculo de Fibonacci em DPC++...72 5.4 Classificação em DPC++...74 5.5 Conclusões...82 6 Apêndice...83 7 Bibliografia...86

Lista de Figuras Figura 1.1 Atual configuração do cluster de alto desempenho da UFRGS...20 Figura 1.2 Torre do cluster composto por 4 máquinas...21 Figura 3.1 Exemplo de utilização do comando chmod...31 Figura 3.2 Seqüência de execução do comando passwd...36 Figura 3.3 Implementação de uma classe hipotética CONTA...44 Figura 4.1 Definição de uma classe distribuída...47 Figura 4.2 Métodos síncronos, assíncronos e assíncronos com confirmação...48 Figura 4.3 O modelo de objetos distribuídos...50 Figura 4.4 Modelo do objeto distribuído...51 Figura 4.5 Comunicação entre objetos de diferentes clusters...53 Figura 4.6 Criação de checkpoints distribuídos...54 Figura 4.7 Exemplo de instalação do ambiente DPC++...55 Figura 4.8 Exemplo de edição do arquivo.login...56 Figura 4.9 Exemplo de configuração do caminho para o subdiretório bin...56 Figura 4.10 Exemplo de edição do arquivo.rhosts...56 Figura 4.11 Arquivo descritor <arquivo>.apl...57 Figura 4.12 Definição de Classes Distribuídas...58 Figura 4.13 Elementos de compilação DPC++...59 Figura 4.14 Ambiente de compilação DPC++...60 Figura 4.15 Modelo do escalonador...64 Figura 5.1 Conteúdo do arquivo PingPong.apl...68 Figura 5.2 Conteúdo do arquivo pingpong.h...68 Figura 5.3 Conteúdo do arquivo PingPong.dc...69 Figura 5.4 Conteúdo do arquivo main.cc da aplicação PingPong...69 Figura 5.5 Conteúdo do arquivo Hello.apl...70 Figura 5.6 Conteúdo do arquivo HelloWorld.dc...71 Figura 5.7 Conteúdo do arquivo main.cc da aplicação HelloWorld...71 Figura 5.8 Conteúdo do arquivo Fibo.apl da aplicação Fibonacci...72 Figura 5.9 Conteúdo do arquivo Fibo.dc da aplicação Fibonacci...73 Figura 5.10 Conteúdo do arquivo Main.cc da aplicação Fibonacci...73 Figura 5.11 Conteúdo do arquivo integersort.apl da aplicação Integersort...75 Figura 5.12 Conteúdo do arquivo tipos.h da aplicação Integersort...76 Figura 5.13 Conteúdo do arquivo dsort.dc da aplicação Integersort...78 Figura 5.14 Conteúdo do arquivo Integersort.cc da aplicação Integersort...79 Figura 5.15 Compilação da aplicação Integersort em DPC++...79 Figura 5.16 Executável da aplicação compilada...80 Figura 5.17 Geração automática de um arquivo desordenado...80 Figura 5.18 Execução do gerador de seqüencia de números desordenados gerafile...80 Figura 5.19 Visualização de um arquivo desordenado no editor emacs...81 Figura 5.20 Comando para a execução da aplicação Integersort...81 Figura 5.21 Visualização do arquivo saida gerado pela aplicação Integersort...82 Figura 6.1 Exemplo de código em PVM...83 Figura 6.2 Exemplo de código em MPI...85 Lista de Tabelas

Tabela 1.1 Características das máquinas pertencentes ao cluster...19 Tabela 1.2 Endereços Ips das máquinas consoles...19 Tabela 1.3 Endereços Ips das máquinas pertencentes ao cluster...20 Tabela 3.1 Analogia entre orientação a objetos e processamento distribuído...40

Lista de Abreviaturas API Application Programming Interface APL Módulo do DPC++ responsável por funções básicas BIP Basic Interface for Programming C++ Linguagem de Programação C++ DECK Distributed Executive Communication Kernel DOS Disk Operating System DPC++ Distributed Processing in C++ DSM Distributed Shared Memory GNU Nome dado a licença de uso público GPPD Grupo de Processamento Paralelo e Distribuído IP Internet Protocol LAM Implementação do MPI feita pela universidade de Ohio. LAN Local Area Network MCS Implementação de MPI criado no Laboratório do MCS MPI Message Passing Interface MPI CH Implementação de MPI criado na Universidade de Massachusets MPI FM Message Passing Interface Fast Messages MPP Massively Parallel Processor NFS Network File System NOW Network Of Workstations NUMA Non Uniform Memory Access PULC Parastation User-Level Comunication PVM Parallel Virtual Machine RPC Remote Procedure Call SMP Symmetric MultiProcessor TCP/IP Transfer Control Protocol/Internet Protocol UFRGS Universidade Federal do Rio Grande do Sul UDP User Datagram Protocol XDR EXternal Data Representation Resumo

Nos últimos anos tem-se investido na pesquisa de máquinas paralelas baseadas em clusters de multiprocessadores simétricos (SMP) por possuírem um custo relativamente mais baixo que as máquinas de arquiteturas maciçamente paralelas (MPP) além de serem mais flexíveis que essas. O objetivo desse trabalho é documentar e validar o uso das máquinas clusters, em especial, o cluster de alto desempenho da UFRGS e o ambiente de programação DPC++. A documentação inclui características do cluster da UFRGS, sendo dado uma ênfase especial às ferramentas disponíveis para programação de aplicações de alto desempenho, PVM, MPI e DPC++. A ferramenta DPC++ foi desenvolvida pelo Grupo de Processamento Paralelo e Distribuído e deriva do C++. Ela é orientada a objetos e de fácil adaptação por parte do programador. Também foram desenvolvidas aplicações visando a validação e a exemplificação do uso desse ambiente. Palavras-Chave: Processamento de Alto Desempenho, Processamento Paralelo, Processamento Distribuído, Cluster de Alto Desempenho, DPC++.

Abstract In the last years one has invested in the research of parallel machines based on clusters of symmetrical multiprocessors (SMP) for possessing a cost relatively lower than the machines of architectures massive parallel (MPP) besides being more flexible than these. The objective of this work is to register and to validate the use of the machines clusters, in special, cluster of high performance of the UFRGS and the environment of programming DPC++. The documentation includes features of cluster of the UFRGS, being given a special emphasis to the available tools for programming of applications of high performance, PVM, MPI and DPC++. Tool DPC++ was developed by the Parallel Processing and Distributed group and drift of C++. It is objects oriented and of easy adaptation on the part of the programmer. Also the validation and the examplification of the use of this environment had been developed applications aiming at. Keywords: High Performance Computing, Parallel Processing, Distributed Processing, High Performance's Clusters, DPC++.

Capítulo 1 Introdução aos Clusters 11 1 Introdução aos Clusters Sistemas de processamento paralelo vêm se tornando cada vez mais populares em função da demanda por processamento de alto desempenho, exigido pelas diversas áreas da ciência (ex.: química, biologia, meteorologia). Infelizmente, os sistemas que oferecem a capacidade de processamento para satisfazer a essa demanda, representados pelas máquinas de arquiteturas maciçamente paralelas ou tem um custo elevado, ou são difíceis de programar, ou ambos. Em função disso, nos últimos anos, têm-se investido na pesquisa de máquinas paralelas baseadas em clusters de multiprocessadores simétricos por possuírem um custo relativamente mais baixo que as máquinas de arquitetura maciçamente paralelas além de serem mais flexíveis que essas. Um cluster é uma máquina de alto desempenho que possui uma arquitetura baseada na reunião de um conjunto de estações de trabalhos independentes, interconectadas por uma rede de comunicação rápida, formando uma plataforma de execução de aplicações paralelas de alto desempenho. A motivação pelo uso dessa arquitetura advém de diversos fatores, entre os quais o estado atual de desenvolvimento dos microprocessadores, permitindo a criação de processadores cada vez mais velozes com um custo relativamente baixo e a existência de redes de comunicação de dados de alto desempenho, comparáveis às redes proprietárias utilizadas em arquiteturas específicas. Outro fator é a disponibilidade de uma máquina desse tipo pelo grupo de Processamento Paralelo e Distribuído da UFRGS. Atualmente, existem diferentes tipos de arquiteturas dedicadas à execução de aplicações paralelas, sendo que essas podem ser classificadas em três tipos: Arquiteturas maciçamente paralelas (MPP): são arquiteturas que possuem processadores altamente poderosos e links de comunicação dedicados. Este tipo de arquitetura, chamada de supercomputadores ou arquiteturas dedicadas, apresentam um alto custo, devido aos recursos que oferecem. Como exemplo, pode-se citar o Intel Paragon e o IBM SP2. Multiprocessadores simétricos (SMP): são arquiteturas compostas por um conjunto de processadores iguais, que se comunicam, geralmente, através de uma mesma memória. O termo simétrico significa que todos os processadores são idênticos em termos de arquitetura interna e poder de processamento. Exemplos dessa arquitetura são os processadores Dual Pentium. Redes de estações (NOW): são arquiteturas que correspondem a um conjunto de estações de trabalho interligadas através de uma rede local (LAN) e que servem como plataforma de execução de aplicações distribuídas. Nesse tipo de arquitetura, a comunicação é feita por troca de mensagens entre as diversas aplicações que executam na rede. Esse tipo de arquitetura é largamente utilizado, tanto comercialmente como academicamente. Como exemplo, podemos citar Estações Sun interligadas por rede Ethernet. RELATÓRIO DE PESQUISA - Instituto de Informática da UFRGS

INTRODUÇÃO À PROGRAMAÇÃO EM CLUSTERS DE ALTO DESEMPENHO 12 Nesse contexto, um cluster pode ser caracterizado como uma plataforma alternativa, aliando o poder e a velocidade de processamento das arquiteturas dedicadas (MPPs) com a disponibilidade de recursos (hardware e software baratos) das redes de estações. É cada vez mais comum o uso de clusters compostos por multiprocessadores simétricos, como por exemplo, PCs com processadores Dual Pentium PRO ou Pentium II, como o caso do cluster existente na UFRGS. Quando comparados com arquiteturas dedicadas, os clusters de multiprocessadores simétricos apresentam um grande número de vantagens. Eles são relativamente baratos (seus custos são menores que o custo de um supercomputador paralelo), eles oferecem uma boa relação custo/desempenho (porque todo o hardware e o software necessários estão à disposição), e, da mesma forma, suas volumosas vendas atraem investimentos diretos para o seu rápido melhoramento. Eles também permitem um desenvolvimento progressivo de aplicações, começando com apenas um processador, passando para multiprocessadores e, finalmente, usando um conjunto de estações de trabalho multiprocessadoras interconectadas por alguma rede de comunicação de dados local. Pode-se caracterizar basicamente, duas classes de arquiteturas baseadas em clusters: Arquiteturas homogêneas: onde os nodos que compõem o cluster possuem a mesma arquitetura e sistema operacional, logo entendem as mesmas instruções sem a necessidade de conversão de dados a fim de possibilitar o processamento dos mesmos, em diferentes processadores. As arquiteturas homogêneas estão se tornando um padrão na área de clusters de alto desempenho, por serem mais simples de operar e por não apresentarem problemas ligados à conversão de dados entre diferentes sistemas operacionais e ou arquiteturas; Arquiteturas heterogêneas: onde os nodos que formam o cluster possuem processadores diferentes e, possivelmente, diferentes sistemas operacionais. Exigem a conversão de dados para que uma instrução possa processar em diferentes processadores. Apresentam problemas ligados à conversão de dados entre diferentes sistemas operacionais e ou arquiteturas Além dessas classes de arquiteturas cluster, pode-se distinguir dois tipos de classificação quanto aos nodos que fazem parte do cluster: Arquitetura simétrica: possuem todos os nodos homogêneos, sendo que todos os nodos possuem a mesma velocidade e capacidade de processamento, além de possuírem a mesma quantidade de recursos computacionais (ex.: memória). Somente clusters com esse tipo de arquitetura possibilitam uma verdadeira análise de desempenho. Arquiteturas assimétricas: possuem nodos diferentes. Podem possuir nodos homogêneos mas com diferentes velocidades e capacidades de processamento ou nodos homogêneos com diferentes recursos de computação (ex.: memória). Arquiteturas dessa classe dificultam possíveis análises de desempenho. RELATÓRIO DE PESQUISA - Instituto de Informática da UFRGS

Capítulo 1 Introdução aos Clusters 13 Além dessas vantagens, a disponibilidade comercial de redes rápidas tem encorajado muitos experimentos no uso de clusters de SMPs a fim de se obter máquinas de alto desempenho com uma boa relação de custo/desempenho. Essas redes de interconexão oferecem tempo de latência e largura de banda comparáveis com as redes de interconexão proprietárias que são encontradas nas MPPs. A seguir, são apresentadas algumas métricas relacionadas à transferência de dados por redes de interconexão. Packing time (Tempo de Empacotamento): é o tempo gasto para tornar os dados disponíveis para o envio, incluem codificação, no caso de comunicação heterogênea, e armazenamento (cópia) dos dados para um buffer apropriado quando necessário. Latência: é o tempo que decorre desde que a mensagem é enviada até que ela se torne disponível no lado do receptor, incluindo o tempo que leva para executar as operações de envio e recebimento, e o tempo gasto em protocolos de comunicação, drivers de rede e a trasferência dos dados através do meio. Bandwidth (Largura de Banda): é calculado baseado na latência e no tamanho das mensagens, indicando a máxima taxa de transferência da rede, normalmente é medida em Mbytes/second. As métricas latência e bandwidth variam de acordo com o tamanho das mensagens. Quanto maior o tamanho da mensagem maior será o tempo de latência e maior será a largura de banda, sendo que essa última para um tamanho de mensagem muito grande, tende a saturar. A fim de garantir um melhor desempenho na comunicação, vários padrões de interconexão estão sendo desenvolvidos para conectar os nós dessas máquinas. A seguir serão caracterizados os padrões mais citados na literatura: Fast Ethernet A Switch Fast-Ethernet garante uma latência muito menor na comunicação entre máquinas, através da emulação de uma conexão ponto-a-ponto entre todas as máquinas (é feito um "chamamento" em hardware ligando os nós da rede a cada comunicação). Placas convencionais de interconexão Fast-Ethernet possuem uma vazão nominal de 100 Mb/s. O fato de ser uma placa convencional implica na implementação das camadas de rede em software o que compromete a latência de forma significativa. Nas outras tecnologias de interconexão essas camadas são implementadas em hardware, o que melhora a latência da comunicação. ParaStation A interface de programação apresentada pela ParaStation consiste de uma emulação de sockets UNIX e de ambientes amplamente utilizados para programação paralela, como PVM [GEI94a]. Isto permite portar uma grande quantidade de aplicações paralelas e cliente/servidor para a ParaStation. Algumas implementações inicias da ParaStation RELATÓRIO DE PESQUISA - Instituto de Informática da UFRGS

INTRODUÇÃO À PROGRAMAÇÃO EM CLUSTERS DE ALTO DESEMPENHO 14 atingiram uma latência em torno de 2 microssegundos e uma largura de banda de 15 Mbyte/s por canal de comunicação. Uma rede ParaStation utiliza uma topologia baseada em uma malha toroidal 1 de duas dimensões, mas para sistemas pequenos uma topologia em anel é suficiente. O objetivo da ParaStation é prover uma padronizada e eficiente interface de programação no topo da rede. A rede é dedicada a aplicações paralelas e não pretende substituir LANs comuns, desta forma os protocolos padrão de LANs podem ser eliminados. Isto permite utilizar propriedades mais especializadas na rede, como protocolos ponto-aponto e controle da rede ao nível do usuário sem interação com o sistema operacional. O protocolo ParaStation implementa múltiplos canais lógicos de comunicação em uma ligação física. Em contraste com outras redes de alta velocidade, como a Myrinet por exemplo, na ParaStation não há custo adicional para componentes de switch central. Myrinet: É um novo tipo de rede que utiliza uma tecnologia baseada em comunicação através de pacotes. As características que tornam a Myrinet uma rede de alto desempenho, incluem o desenvolvimento de canais robustos de comunicação com controle de fluxo, pacotes, controle de erro, baixa latência, interfaces que podem mapear a rede, rotas selecionadas, tradução de endereços da rede para essas rotas, bem como manipulação do tráfego de pacotes e software que permite comunicação direta entre os processos a nível de usuário e a rede. A Myrinet foi originalmente desenvolvida para ser utilizada em sistemas multicomputadores (MPP s e NOW s), que consistem de uma coleção de nós de computação, cada um com sua própria memória, conectados por uma rede de troca de mensagens. Atualmente a Myrinet vem sendo utilizada em máquinas baseadas em clusters. Do mesmo modo que as LANs, os nós de uma máquina baseada em clusters utilizam uma rede Myrinet, eles enviam e recebem dados na forma de pacotes. Qualquer nodo pode enviar um pacote para qualquer outro nodo. Um pacote consiste de uma seqüência de bytes iniciando com um cabeçalho que é examinado pelos circuitos de roteamento para encaminhar o pacote através da rede. Em contraste com as LANs comuns, porém, esta rede baseada em Myrinet possui altas taxas de transferência. Uma ligação Myrinet é composta por um par de canais full-duplex que permite uma taxa de transferência de cerca de 1.28 Gbit/s cada um. Uma rede Myrinet utiliza normalmente topologias regulares, tipicamente malhas de duas dimensões, embora ela permita a utilização de uma topologia arbitrária uma vez que um cabo Myrinet, pode conectar hosts entre si, ou ainda ligar uma placa a um switch ou ainda dois switches entre si. Ao contrário de uma LAN típica onde todo o tráfego de pacotes compartilha um mesmo canal físico, uma rede Myrinet com uma malha bidimensional pode ser considerada escalável, pois a capacidade dos agregados cresce com o número de nós devido ao fato de que muitos pacotes podem trafegar de forma concorrente 1 significado geométrico: sólido gerado pela rotação de uma superfície plana fechada em torno de um eixo que não lhe seja secante. RELATÓRIO DE PESQUISA - Instituto de Informática da UFRGS

Capítulo 1 Introdução aos Clusters 15 por diferentes caminhos da rede. Uma rede Myrinet é composta de ligações full-duplex ponto-a-ponto que conectam hosts e switches. Os switches com múltiplas portas podem ser conectados por ligações para outros switches e para outros hosts em topologias variadas. A Myrinet é uma tecnologia de chaveamento e comunicação de pacotes de alto desempenho (ela permite uma latência de cerca de 5 microssegundos) e um custo relativamente baixo que está sendo amplamente utilizada para interconectar máquinas baseadas em clusters. SCI (Scalable Coherent Interface) SCI é um padrão recente que especifica um hardware e protocolo para conexão de até 64K nós em uma rede de alta velocidade com características de comunicação de alto desempenho [EIC95] [GEI94a]. O SCI define serviços de barramento oferecendo soluções distribuídas para a sua realização. O mais notável destes serviços é um espaço de endereçamento físico de 64 bits entre os nós SCI que permite operações de escrita, leitura e a criação de áreas de memória compartilhada entre os nós. Dos 64 bits de endereçamento para a DSM (Distributed Shared Memory), 16 bits são utilizados para endereçar os 64 nós possíveis 2 e os restantes 48 bits para endereçamento em cada nodo. A placa SCI permite construir máquinas com características NUMA (Non Uniform Memory Access), uma vez que estas placas permitem acessos à memória remota (DSM) realizados pelo hardware, mas que são mais lentos que os acessos locais, o que caracteriza acessos não uniformes à memória [HWA93]. Protocolos para coerência de cache em memória compartilhada distribuída podem ser desenvolvidos para estes sistemas baseados em NUMA. O SCI evita a limitação física dos barramentos pelo emprego de ligação unidirecional ponto a ponto. Deste modo, não há maiores dificuldades para a escalabilidade. As ligações podem ser rápidas e seu desempenho pode aumentar com a utilização de tecnologia de ponta. Tais ligações podem ser implementadas com linhas de transmissão paralela ou serial baseadas em diferentes mídias (ex.: fibra ótica). O SCI especifica uma largura de banda inicial de 1 Gbit/s para ligação serial e 1 Gbyte/s usando uma canal paralelo, ambos sobre curtas distâncias. A construção básica de blocos SCI é através de pequenos anéis. Sistemas maiores podem ser obtidos através da criação de anéis de anéis, interconectados via SCI switches. Desta forma, além de permitir a troca de mensagens utilizando um hardware especial o SCI ainda possui a capacidade de implementar via hardware uma memória compartilhada distribuída (DSM), através de operações de escrita e leitura em regiões de memória mapeadas em memórias remotas. Isto se traduz em baixa latência, taxa na ordem de poucos microssegundos num ambiente baseado em clusters. 1.1 Configurações de Clusters 2 2 16 = 64K RELATÓRIO DE PESQUISA - Instituto de Informática da UFRGS

INTRODUÇÃO À PROGRAMAÇÃO EM CLUSTERS DE ALTO DESEMPENHO 16 Nesta seção serão apresentadas três configurações possíveis de clusters que foram apresentadas em [DER99]. Será adotado que essas configurações possuirão um número fixo de nodos uma vez que bastaria recursos para a inclusão de novos. A configuração mínima se caracteriza por utilizar placas convencionais Fast- Ethernet além de uma Switch Fast-Ethernet para a interconexão dos nós da máquina. É importante ressaltar que apesar de a diferença para uma rede de estações (NOW) parecer pequena, essa Switch garante uma latência muito menor na comunicação entre máquinas, através da emulação de uma conexão ponto-a-ponto entre todas as máquinas (é feito um chamamento em hardware ligando os nós da rede a cada comunicação). Esse é o ponto determinante que faz com que essa máquina pertença à classe de máquinas baseadas em clusters e não à classe de redes de estações (NOW s). Essa configuração é denominada mínima porque o uso de placas convencionais implica na implementação das camadas de rede em software o que compromete a latência de forma significativa. A configuração básica caracteriza- se por utilizar uma rede de baixa latência para a interconexão dos nós. Essa denominação foi utilizada para representar a interconexão dos nós por placas de baixa latência e não por placas de rede convencionais. A principal diferença para a configuração mínima é que as camadas de rede são implementadas em hardware nas placas, e não em software como na configuração anterior, o que melhora a latência na comunicação. Como nesse caso o valor de latência se aproxima consideravelmente das máquinas MPP, já se torna possível neste caso comparar as duas arquiteturas (clusters e MPP) em nível de desempenho. Como essa configuração não implementa uma memória global por hardware, como a configuração avançada (será vista adiante), a implementação de uma memória global e distribuída em software é uma possível área de pesquisa. No caso da configuração mínima e básica, pode-se utilizar bibliotecas que implementem DSM sobre memória distribuída como a biblioteca TreadMarks [AMZ95] A configuração avançada caracteriza-se por utilizar duas redes de interconexão distintas, uma que se utiliza de uma Switch Fast-Ethernet (equivalente a configuração mínima) e outra que se utiliza de placas de interconexão especiais do padrão SCI. A idéia aqui é utilizar a rede Fast-Ethernet para a tráfego de E/S, monitoração e gerência de recursos do sistema, liberando a rede de menor latência para o tráfego exclusivo de mensagens das aplicações paralelas. As placas SCI são ligadas entre si por conexões ponto-a-ponto e para um pequeno número de nós (2 a 10) se recomenda a ligação em anel. É importante ressaltar que a principal diferença em nível de arquitetura da máquina é que a placa SCI implementa também uma memória global em hardware, dando uma maior versatilidade na programação RELATÓRIO DE PESQUISA - Instituto de Informática da UFRGS

Capítulo 1 Introdução aos Clusters 17 desta configuração. A latência da placa SCI é equivalente as placas usadas na configuração básica (poucos microssegundos), pois também implementa as camadas de rede em hardware. A programação de máquinas clusters pode ser feita com bibliotecas padrão para a programação paralela, como PVM, que se encontram disponíveis para o sistema operacional Linux e são gratuitas, sendo que outra possibilidade é a programação utilizando o mecanismo de Sockets [DUM95] disponíveis no Linux. Ambas trabalham com o modelo de comunicação de troca de mensagens que se adapta bem ao caso da configuração mínima e básica uma vez que essas possuem memória distribuída. No caso da configuração avançada, há mais possibilidades de programação, uma vez que além da memória distribuída há a possibilidade de existência de uma memória global entre as máquinas. 1.2 O Cluster de Alto Desempenho da UFRGS O Grupo de Processamento Paralelo e Distribuído da UFRGS possui como plataforma de execução para aplicações paralelas um cluster homogêneo formado por 4 nodos. Cada nodo do cluster é um Dual Pentium Pro (2-way SMP) com 64M de memória RAM e clock de 200Mhz. Estes nodos estão interconectados por duas redes de comunicação: uma rede Fast Ethernet e outra rede Myrinet. Além disso existem algumas máquinas que possuem a função de console e/ou servidor NFS. O sistema operacional é Linux, com kernel 2.2.1 e compilador C++ (gcc) versão 2.91.60 (egcs-1.1.1). Estão instaladas as bibliotecas PVM 3.4 e duas implementações de MPI, LAM 6.1, da Universidade de Ohio [OHI96], e MPICH 1.1.2, do Laboratório de MCS [GRO96]. Observações sobre o cluster da UFRGS: A rede Myrinet está isolada, sendo acessível somente para a execução de aplicações paralelas de dentro do cluster. Para usar a rede Fast Ethernet, basta citar o nome da maquina ou o IP nos programas. Para usar a Myrinet, deve-se utilizar o segundo nome da maquina ou o segundo IP. A máquina meyer encontra-se no conectada ao switch Fast-Ethernet, mas possui placa Ethernet. A Tabela 1.1 mostra a relação de todas as máquinas pertencentes ao ambiente do cluster, sendo que as máquinas meyer, scliar e ostermann possuem a função de console (terminais de acesso ao cluster) e as máquinas dionélio, verissimo, quintana e euclides constituem os nodos do cluster, onde são executadas as aplicações paralelas. Tabela 1.1 Características das máquinas pertencentes ao cluster. Máquina Arquitetura Características Especiais Meyer Pentium PRO Single Console. Não está conectado à rede Myrinet Scliar Pentium PRO Single Servidor NFS do cluster Ostermann Pentium II Console Dionelio Dual Pentium PRO 200 Nodo do cluster RELATÓRIO DE PESQUISA - Instituto de Informática da UFRGS

INTRODUÇÃO À PROGRAMAÇÃO EM CLUSTERS DE ALTO DESEMPENHO 18 Verissimo Dual Pentium PRO 200 Nodo do cluster Quintana Dual Pentium PRO 200 Nodo do cluster Euclides Dual Pentium PRO 200 Nodo do cluster As Tabelas 1.2 e 1.3 relacionam os nomes das máquinas pertencentes ao ambiente do cluster com seus respectivos números IPs e seus nomes no servidor NFS. Na Tabela 1.2 estão as máquinas que não fazem parte do cluster propriamente dito e possuem funções de consoles ou de servidor NFS das redes Fast Ethernet e Myrinet (caso da máquina scliar, meyer e ostermann). Essas máquinas que possuêm função de consoles ou servidores NFS recebem um tratamento especial nas configurações, além de possuírem processadores diferentes dos nós do cluster, logo não são contadas como nós da máquina paralela. Como os consoles são responsáveis por toda a E/S da máquina paralela e ainda têm funções de carga de programas e de monitoração, elas já sofrem uma carga considerável. Isso naturalmente não impede que elas sejam usadas no processamento de aplicações paralelas. A inclusão dessas máquinas no processamento de aplicações paralelas, continuaria a deixar o cluster homogêneo (todas as máquinas reconhecem o mesmo conjunto de instruções) mas esse se tornaria assimétrico (não possuem as mesmas características de processamento), além de que a sobrecarga que essas máquinas recebem tem que ser considerada, o que dificultaria uma possível análise de desempenho. Na Tabela 1.3 estão os dados referentes as máquinas que fazem parte do cluster propriamente dito. Tabela 1.2 Endereços IPs das máquinas consoles. Máquina IP/NFS (Fast-Ethernet) IP/NFS (Myrinet) Meyer 143.54.7.130/meyer não está conectada Scliar 143.54.7.131/ scliar 192.168.1.1/ mscliar ou scliar_m Ostermann 143.54.7.137/ ostermann 192.168.1.7/ mostermann ou ostermann_m Tabela 1.3 Endereços IPs das máquinas pertencentes ao cluster. Máquina IP/NFS (Fast-Ethernet) IP/NFS (Myrinet) Verissimo 143.54.7.132/ verissimo 192.168.1.2/ mverissimo ou verissimo_m Quintana 143.54.7.133/ quintana 192.168.1.3/ mquintana ou quintana_m Dionelio 143.54.7.134/ dionelio 192.168.1.4/ mdionelio ou dionelio_m Euclides 143.54.7.135/ euclides Meuclides ou euclides_m RELATÓRIO DE PESQUISA - Instituto de Informática da UFRGS

Capítulo 1 Introdução aos Clusters 19 A Figura 1.1 apresenta o esquema de conexão dos nodos das máquinas nas redes Fast Ethernet e Myrinet. Como cada máquina ficou com duas interfaces de rede, foram configurados endereços IP diferentes em cada uma delas. Desse modo, pode-se alternadamente, executar programas de teste em uma ou outra rede, bastando escolher os endereços IP de origem e destino das conexões. Com esta configuração a rede Myrinet ficou isolada da rede externa, não sendo possível que trafeguem por ela dados originários de fora do cluster. A Figura 1.2 apresenta uma foto do cluster de alto desempenho utilizado pelo Grupo de Processamento Paralelo e Distribuído da UFRGS. Figura 1.1 Atual configuração do cluster de alto desempenho da UFRGS Figura 1.2 Torre do cluster composto por 4 máquinas RELATÓRIO DE PESQUISA - Instituto de Informática da UFRGS

INTRODUÇÃO À PROGRAMAÇÃO EM CLUSTERS DE ALTO DESEMPENHO 20 1.3 Objetivo e organização desse relatório Este relatório foi desenvolvido com a finalidade de apresentar métodos de construção de programas paralelos, utilizando-se os recursos disponíveis pelo Grupo de Processamento Paralelo e Distribuído da UFRGS. No primeiro capítulo foram apresentadas as características e conceitos dos clusters, seguida de uma breve descrição dos recursos disponíveis pelo grupo. No segundo capítulo são descritas três ferramentas, que se encontram disponíveis no cluster do Grupo de Processamento Paralelo e Distribuído da UFRGS. Essas ferramentas (PVM, MPI, DPC++) possibilitam a construção de programas paralelos e distribuídos, sendo feita uma comparação entre as características dessas ferramentas na construção dos mesmos. No capítulo três é feita uma introdução do ambiente necessário para se executar essas ferramentas, dando-se ênfase à ferramenta DPC++. Nesse capítulo é feita uma introdução ao sistema operacional Linux, às linguagens orientadas a objetos e à linguagem C++. Esses assuntos são abordados por estarem diretamente ligados ao modelo DPC++. No quarto capítulo é feita uma abordagem do ambiente de compilação DPC++ como uma ferramenta que possibilita a construção de programas paralelos que podem ser executados no cluster da UFRGS. Nesse capítulo é discutido o modelo de distribuição adotado pelo DPC++, uma apresentação da linguagem DPC++, que inclui diretivas (comandos) do DPC++ e restrições quanto ao C++. Também é feita uma descrição do ambiente de compilação (módulos constituintes), instalação do DPC++, configuração do ambiente e como definir aplicações utilizando-se o DPC++. No quinto capítulo são apresentados alguns programas escritos em DPC++ a fim de exemplificar ao iniciando no ambiente como são definidos os programas na prática. RELATÓRIO DE PESQUISA - Instituto de Informática da UFRGS