UNIVERSIDADE FEDERAL DO MARANHÃO DEPARTAMENTO DE INFORMÁTICA CURSO DE CIÊNCIA DA COMPUTAÇÃO

Transcrição

1 UNIVERSIDADE FEDERAL DO MARANHÃO DEPARTAMENTO DE INFORMÁTICA CURSO DE CIÊNCIA DA COMPUTAÇÃO TÓPICOS ESPECIAIS EM LINGUAGEM DE PROGRAMAÇÃO: APLICAÇÕES PARALELAS EM AMBIENTES DE PASSAGEM DE MENSAGENS Prof. Alexandre César Muniz de Oliveira SÃO LUÍS 2005

2 1 Apresentação da disciplina Alexandre César Muniz de Oliveira UFMA/DEINF - 2

3 Motivação A computação paralela tem se tornado uma importante aliada na tarefa de resolver problemas computacionalmente dispendiosos e complexos Existem máquinas paralelas escaláveis baseadas em hardware e software com custo razoavelmente acessível O programador deve ter em mente conceitos que permitam o máximo aproveitamento do paradigma de programação paralela Questões inerentes ao novo paradigma: o A escolha equivocada da plataforma em que o programa paralelo será executado pode comprometer o desempenho do programa, mesmo que ele tenha sido construído de maneira eficiente e elegante. o A análise do problema a ser decomposto para que se escolha a ferramenta de software mais adequada à construção de um programa paralelo eficiente. Objetivos Visão geral da computação paralela: o Apresentação de diversos tipos de hardware disponíveis à execução de uma aplicação paralela; o Foco sobre aspectos de software para construção e execução de um programa paralelo. Estudo de um ambiente de desenvolvimento de aplicações paralelas Abordagem prática baseada em estudos de casos; Alexandre César Muniz de Oliveira UFMA/DEINF - 3

4 Metodologia Aulas teóricas expositivas seguidas de uma avaliação teórica motivando o aluno a estudar conceitos relativos à Computação Paralela Estudo da biblioteca MPI possibilitando que o aluno esteja apto a compreender os casos a serem estudados posteriormente e a desenvolver aplicações em paralelo Estudos de problemas simples encontrados na computação, de pleno conhecimento do aluno, cujos algoritmos possam ser paralelizados. Estudo de problemas mais específicos encontrados em áreas como inteligência artificial, otimização, e outras Seminários teóricos abrangendo funções avançadas de MPI Seminários teóricos comparando MPI com outros ambientes, como o PVM Seminários práticos apresentando as soluções encontradas para problemas estudados em sala de aula Programa Módulo 1: Introdução à Computação Paralela: conceitos, medidas de desempenho, arquiteturas paralelas, software e ambientes de apoio. (8 aulas) Módulo 2: Biblioteca para Troca de Mensagens: Message-Passing Interface (MPI): comandos básicos. Avaliação escrita sobre conceitos em computação paralela. (12 aulas) Módulo 3: Estudo de caso 1: solução de problemas clássicos na computação usando algoritmos paralelos e definição dos trabalhos finais. (12 aulas) Módulo 4: Estudo de caso 2: algoritmo genético paralelo; aplicações em inteligência artificial e otimização (12 aulas) Módulo 5: Seminários 1: apresentação dos trabalhos teóricos: comandos avançados MPI e comparação com outros ambientes. (8 aulas) Módulo 6: Seminários 2: apresentação dos trabalhos práticos: solução de problemas computacionais usando algoritmos paralelos (8 aulas) Alexandre César Muniz de Oliveira UFMA/DEINF - 4

5 Módulo 1: Introdução à Computação Paralela 1.1 Introdução Alexandre César Muniz de Oliveira UFMA/DEINF - 5

6 Conceito de Processamento Paralelo Divisão de uma determinada aplicação, de forma que esta possa ser executada por vários elementos de processamento, que deverão cooperar entre si (comunicação e sincronismo) (FOSTER et al., 2003), Ganho de eficiência por meio da quebra da execução seqüencial do fluxo de instruções da máquina de von Neumann (ALMASI & GOTTLIEB, 1994). Histórico Em 1920, Vanevar Bush, do MIT (Massachussets Institute of Technology), apresentou um computador analógico que resolvia equações diferenciais em paralelo. Von Neumann, em seus artigos, por volta de 1940, também sugeriu utilizar paralelismo como forma de se resolver equações diferenciais. O surgimento do computador ILLIAC IV (supercomputador composto por 64 processadores), projeto iniciado na década de 60 e colocado em operação em 1972, na Universidade de Illinois, foi considerado o marco inicial do processamento paralelo (ROSE & NAVAUX, 2003). Alexandre César Muniz de Oliveira UFMA/DEINF - 6

7 Motivação pelo paralelismo Basicamente: ganho de desempenho. Especificamente (ALMASI & GOTTLIEB, 1994): Restrições físicas à melhoria de desempenho de um único processador: velocidade da luz, as leis da Termodinâmica, a dimensão física dos componentes e o custo; O desenvolvimento tecnológico permitiu a construção de microprocessadores de alto desempenho, que agrupados, possibilitam um ganho significativo de poder computacional. Microprocessadores de alto desempenho possibilitam uma melhor relação custo/desempenho quando comparadas aos supercomputadores de custo extremamente alto; Agrupamento de microprocessadores em módulos permite a expansão do sistema através da inclusão de novos módulos; Maior facilidade em incorporar o conceito de tolerância à falhas devido à redundância de hardware. Alexandre César Muniz de Oliveira UFMA/DEINF - 7

8 Motivação pelo paralelismo Aplicações instaladas que usam processamento paralelo Comércio de serviços Alexandre César Muniz de Oliveira UFMA/DEINF - 8

9 Concorrência e Paralelismo A concorrência existe quando dois ou mais processos iniciaram a sua execução e ainda não foram finalizados, sem que haja uma relação com o número de elementos de processamento utilizados. Quando existe apenas um elemento de processamento e vários processos estão sendo executados de maneira concorrente existe um pseudo-paralelismo ou paralelismo lógico processos e3 e3 e2 e2 e2 e1 e1 t1 t tempo Figura 1: Paralelismo Lógico. Alexandre César Muniz de Oliveira UFMA/DEINF - 9

10 Concorrência e Paralelismo O usuário tem a impressão que os processos estão sendo executados ao mesmo tempo, mas ocorre apenas o compartilhamento do elemento de processamento entre os processos em execução. Em um determinado instante de tempo, apenas um processo está em execução, enquanto os demais estão aguardando a liberação do processador. Quando se tem mais de um elemento de processamento e existem processos sendo executados ao mesmo tempo, há um paralelismo físico ou simplesmente paralelismo. processos e3 e2 e1 t t1 tempo Figura 2: Paralelismo Físico. Alexandre César Muniz de Oliveira UFMA/DEINF - 10

11 Granulosidade ou granularidade (grained) A granulosidade (ou nível de paralelismo) representa o tamanho das tarefas submetidas aos processadores e pode ser classificada em fina, média e grossa (GRAMA et al., 2003). Este conceito está intimamente ligado ao tipo de máquina paralela em que o programa será executado. o A granulosidade fina indica que o paralelismo está sendo realizado em nível de operações ou instruções. Geralmente, requer um número maior de comunicação por parte das unidades de processamento. Desvantagem: alto custo de sincronização. Vantagem: uso de processadores mais simples. Os computadores multiprocessados são mais adequados a processos paralelos de granulosidade fina, Alexandre César Muniz de Oliveira UFMA/DEINF - 11

12 Granulosidade ou granularidade (grained) o A granulosidade média indica o paralelismo obtido através da execução de blocos ou sub-rotinas do programa. o A granulosidade grossa relaciona o paralelismo em nível de processos. Geralmente, requer um número menor de comunicação e sincronismo entre os processadores. Uso de processadores mais genéricos e complexos do que os destinados à execução de programas de granulosidade fina. Os multicomputadores executam melhor os processos paralelos com granulosidade de média a grossa (FOSTER, 1995). o Taxa de granulosidade: G = P /C Onde C e P se referem respectivamente aos tempos de comunicação e processamento local; o G alto significa granulosidade grossa, isto é, muito processamento local e pouca comunicação. Alexandre César Muniz de Oliveira UFMA/DEINF - 12

13 1.2 Medidas de Desempenho de Computação Paralela Alexandre César Muniz de Oliveira UFMA/DEINF - 13

14 Ganho obtido de desempenho (GRAMA et al., 2003): Speed up: medida utilizada para determinar o aumento de velocidade obtido durante a execução de um programa (código paralelo) em p processadores, em relação à execução desse programa (código seqüencial) em um único processador. Sp = T 1 / T p o Onde T 1 é o tempo de execução em um processador e T p é o tempo de execução em p processadores. o Ideal todos os processadores realizam trabalho útil; não existem processadores ociosos; não são realizadas operações duplicadas raramente é atingido, exceto para algumas aplicações assíncronas. Alexandre César Muniz de Oliveira UFMA/DEINF - 14

15 Ganho obtido de desempenho (GRAMA et al., 2003): Speed up o O caso ideal é quando Sp = p, isto é, o ganho de speed up tende a p, indicando que a velocidade de processamento é diretamente proporcional ao número de processadores. o Dificuldades para a obtenção do caso ideal são: o sobrecarga da comunicação entre processadores, o partes do código executável estritamente seqüencial (que não podem ser paralelizadas) o nível de paralelismo utilizado (devido à granulosidade ser inadequada ao tipo de arquitetura utilizada). o Eventualmente Sp > p (superlinear) ocorre quando o tempo de execução de um programa seqüencial é bem superior ao tempo gasto pelo seu correspondente paralelo para solucionar um determinado problema. o Fatores: o limitações de hardware da máquina que executou o programa seqüencial o má formulação do algoritmo seqüencial, deteriorando o tempo total de sua execução. Alexandre César Muniz de Oliveira UFMA/DEINF - 15

16 Ganho obtido de desempenho (GRAMA et al., 2003): Eficiência (Ep): trata da relação entre o Speed up e o número de processadores. Ep = Sp / p [0,1] o A eficiência fornece o quanto os processadores estão sendo utilizados. O caso ideal é obtido quando Ep =1, indicando uma eficiência de 100%. o Exemplo: Se o tempo da melhor versão sequencial é 8 segundos e o algoritmo paralelo leva 4 segundos utilizando 5 processadores, então: o S=8/4=2 o E(%) = (2/5) * 100 = 20% Fatores que contribuem para a queda da eficiência: o Atraso introduzido pela comunicação entre processadores; o Overhead devido ao nível de sincronismo entre tarefas: tarefas dependentes alocadas em processadores diferentes, levando ao desbalanceamento de carga entre processadores. o Overhead devido ao esforço despendido por alguns processadores quando mais de um deles executa a mesma tarefa, necessitando de coordenação do processo todo. Alexandre César Muniz de Oliveira UFMA/DEINF - 16

17 Lei de Amdahl o Speed up sofre limitações devido aos trecho(s) não paralelizável(is) de um programa (AMDAHL, 1967): o Onde: Sp 1 / (T <f> + T <1 f> /p) o f é a fração inerentemente seqüencial de um programa. o (1-f) é a parte paralelizável de um programa. o p é o número de processadores, sendo p > 1. o Uma estimativa de ganho ideal: I = T s / (T <f> + T <1 f> /p) Toda solução paralela, em um dado momento, possui um ponto de saturação onde o speed up não apresenta mais ganhos significativos e a eficiência cai. O programa paralelo não atende mais de maneira satisfatória à escalabilidade da máquina paralela. Tanto o speed up e quanto a eficiência continuam a cair com o incremento de p. Alexandre César Muniz de Oliveira UFMA/DEINF - 17

18 1.3 Arquiteturas Paralelas Alexandre César Muniz de Oliveira UFMA/DEINF - 18

19 Classificação de Flynn O processo computacional deve ser visto como um fluxo de instruções executando sobre um fluxo de dados (FOSTER et al., 2003). A classificação de Flynn acomoda as arquiteturas em quatro classes de máquinas: SISD, SIMD, MISD e MIMD. SISD - Single Instruction Stream / Single Data Stream o Fluxo único de instruções / Fluxo único de dados: corresponde ao tradicional modelo de Von Neumann (apenas um processador). o Um processador executa seqüencialmente um conjunto de instruções sobre um conjunto de dados FI FI UC UP M = Fluxo de Instruções = Unidade de Controle = Unidade de Processamento = Memória UC UP M Figura 3: Exemplo de Arquitetura SISD. Alexandre César Muniz de Oliveira UFMA/DEINF - 19

20 SIMD - Single Instruction Stream / Multiple Data Stream o Fluxo único de instruções / Fluxo múltiplo de dados: envolve múltiplos processadores executando simultaneamente a mesma instrução em diversos conjuntos de dados. o Exemplos: as máquinas paralelas com processadores Array como CM-2 e MasPar (ROSE & NAVAUX, 2003). FI UP M UC UP M FI UC UP M = Fluxo de Instruções = Unidade de Controle = Unidade de Processamento = Memória UP M Memória Figura 4: Exemplo de Arquitetura SIMD. Alexandre César Muniz de Oliveira UFMA/DEINF - 20

21 MISD - Multiple Instruction Stream / Single Data Stream o Fluxo múltiplo de instruções / Fluxo único de dados: envolve múltiplos processadores executando diferentes instruções em um único conjunto de dados. o Nenhuma arquitetura é classificada como MISD, mas alguns autores consideram o pipeline como um representante dessa categoria. Pipeline implementa um paralelismo temporal, caracterizado quando existe a execução de eventos sobrepostos no tempo. A tarefa que será executada é dividida em sub-tarefas, cada uma destas sendo executada por um estágio de hardware especializado que trabalha de maneira concorrente com os demais estágios envolvidos na computação (PATTERSON & HENNESSY, 2000). FD M FI UC FI UP M FI UC FI UP UP FD M UC FI = Unidade de Processamento FI = Fluxo de Dados M UC = Memória = Unidade de Controle = Fluxo de Instruções FD Figura 5: Exemplo de Arquitetura MISD. FI UP Alexandre César Muniz de Oliveira UFMA/DEINF - 21

22 MIMD - Multiple Instruction Stream / Multiple Data Stream o Fluxo múltiplo de instruções / Fluxo múltiplo de dados: envolve múltiplos processadores executando diferentes instruções em diferentes conjuntos de dados, o A interação entre os processadores é feita pela memória. o Cada processador executa o seu próprio programa sobre seus próprios dados de forma assíncrona. o O princípio MIMD é bastante genérico, daí cabe ainda ua subdivisão, de acordo com o tipo de acesso à memória. Máquinas com memória compartilhada são conhecidas como multiprocessadores ou sistemas fortemente acoplados, Máquinas que possuem memória não compartilhada (distribuída) são ditas multicomputadores ou sistemas fracamente acoplados. UC FI UP FD M FI UC FI UP FD M FI UP FD M UC FI FI FD = Unidade de UC UP M Processamento = Fluxo de Dados = Memória = Unidade de Controle = Fluxo de Instruções Figura 6: Exemplo de Arquitetura MIMD. FI Alexandre César Muniz de Oliveira UFMA/DEINF - 22

23 Outras classificações ALMASI & GOTTLIEB, 1994 DUNCAN, 1990 Classificação segundo o Compartilhamento de Memória Arquiteturas que compartilham memória são classificadas como máquinas MIMD (ROSE & NAVAUX, 2003). Multiprocessadores o Acesso Uniforme à Memória (UMA - Uniform Memory Access): a memória é centralizada e encontra-se à mesma distância de todos os processadores. A latência de acesso à memória é igual para todos os processadores do sistema. P P P P P P P P Rede de Interconexão Memória Figura 7: Máquina UMA. Alexandre César Muniz de Oliveira UFMA/DEINF - 23

24 Classificação segundo o Compartilhamento de Memória o Acesso Não Uniforme à Memória (NUMA - Non-Uniform Memory Access): a memória é organizada em módulos que são associados, de um para um, aos processadores. O espaço de endereçamento é único e cada processador pode endereçar toda a memória do sistema. A latência de acesso à memória depende se o endereço, gerado por um processador, encontra-se no módulo de memória diretamente ligado a ele ou não. Um processador deve utilizar a rede de interconexão para acessar informações mantidas em outros módulos de memória. espaço de endereçamento M M M M M M M M P P P P P P P P Rede de Interconexão Figura 8: Máquina NUMA. Alexandre César Muniz de Oliveira UFMA/DEINF - 24

25 Classificação segundo o Compartilhamento de Memória o Acesso Não Uniforme à Memória: Dependendo da forma com o problema de consistência é tratado (ou não), essa classe pode ser subdividida em (ROSE & NAVAUX, 2003) (FOSTER et al., 2003): - Acesso Não Uniforme à Memória Sem Consistência de Cache (NCC-NUMA Non-Cache-Coherent Non- Uniform Memory Access): Variação de uma NUMA em que não há dispositivo de hardware que garanta a consistência de cache. - Acesso Não Uniforme à Memória Com Consistência de Cache (CC-NUMA Cache-Coherent Non-Uniform Memory Access): Variação de uma NUMA em que há dispositivo de hardware que garanta a consistência de cache. - Acesso Não Uniforme à Memória Com Consistência de Cache em Software (SC-NUMA Software-Coherent Non-Uniform Memory Access): nesse caso, a consistência de cache não está implementada em hardware como nas máquinas CC-NUMA, mas em software, de forma transparente ao usuário. Essa camada de software é também conhecida como DSM (Distributed Shared Memory) e pode ser utilizada tanto em máquinas NCC- NUMA quanto em máquinas NORMA que não possuem consistência de cache em hardware. Alexandre César Muniz de Oliveira UFMA/DEINF - 25

26 Classificação segundo o Compartilhamento de Memória o Arquiteturas de Memória Somente com Cache (COMA - Cache-only Memory Architecture): todas as memórias locais são estruturadas como memória cache e são chamadas de COMA caches. As COMA caches têm muito mais capacidade que uma cache tradicional. A memória principal é composta pelas COMA caches, sendo que as gerências de caches e de memória ficam a cargo de um hardware de suporte, implementado somente nesse tipo de máquina. Essa complexidade faz com que essa estrutura seja mais cara de implementar que as máquinas NUMA. M M M M M M M M P P P P P P P P Rede de Interconexão Figura 9: Máquina COMA. Alexandre César Muniz de Oliveira UFMA/DEINF - 26

27 Multicomputadores o Sem Acesso a Variáveis Remotas (NORMA - Non-Remote Memory Access): cada processador possui sua própria memória local, à qual apenas ele tem acesso direto. As memórias dos outros processadores são consideradas remotas e possuem espaços de endereçamento distintos. Como não é possível o uso de variáveis compartilhadas nesse ambiente, a comunicação com outros processos é realizada através de troca de mensagens via rede de interconexão. A diferença básica entre as máquinas NORMA e as demais (UMA, NUMA e COMA) é que na primeira há uma replicação de toda a arquitetura convencional (processador, memória e I/O) para formar uma máquina paralela, e não apenas do componente processador como nos multiprocessadores. P P P P P P P P M M M M M M M M Rede de Interconexão Figura 2.10: Máquina NORMA. Alexandre César Muniz de Oliveira UFMA/DEINF - 27

28 Resumo A linha tracejada na Figura 2.11 indica que as máquinas das classes NCC-NUMA e NORMA podem ser transformadas em máquinas SC- NUMA através da inclusão de uma camada de software que implemente consistência de cache (ROSE & NAVAUX, 2003). UMA (memória central) MIMD Multiprocessadores (espaço de endereçamento único) NUMA (memória distribuída) COMA CC-NUMA NCC-NUMA Multicomputadores (múltiplos espaços de endereçamento) NORMA SC-NUMA Figura 11: Visão geral da classificação segundo o compartilhamento de memória (HWANG, 1998). Alexandre César Muniz de Oliveira UFMA/DEINF - 28

29 Exemplos de Modelos Físicos de Máquinas MIMD Multiprocessadores Simétricos (SMP Symmetric Multiprocessors): são sistemas constituídos de processadores comerciais, também chamados de off-the-shelf (de prateleira), conectados a uma memória compartilhada geralmente por meio de um barramento de alta velocidade (FOSTER et al., 2003). o O fato de todos os processadores terem acesso igual ao barramento e à memória, não ocorrendo privilégios a nenhum dos processadores no atendimento de requisições, fornece o caráter simétrico ao sistema, o que caracteriza essas máquinas como multiprocessadores UMA. o A comunicação se dá através do compartilhamento de memória. o Uma única cópia do sistema operacional está ativa em todos processadores. o Um fator limitante à escalabilidade dessas máquinas é o uso de barramento como rede de interconexão. o Com o objetivo de reduzir a quantidade de acesso à memória, esses sistemas utilizam memória cache junto a cada processador, reduzindo a comunicação no barramento e aumentando o número de processadores no sistema. o Pode-se encontrar desde máquinas SMP com dois processadores até sistemas SMP com 64 processadores (ROSE & NAVAUX, 2003). Exemplos: IBM R50, SGI Power Challenger, Sun Ultra Enterprise 10000, HP/Convex Exemplar X-Class e DEC Alpha Server Alexandre César Muniz de Oliveira UFMA/DEINF - 29

30 Exemplos de Modelos Físicos de Máquinas MIMD Máquinas Maciçamente Paralelas (MPP Massively Parallel Processors): são sistemas compostos por centenas, em alguns casos milhares, de nós (processador e memória) independentes, interconectados por redes proprietárias e de alta velocidade. o Cada nó possui um ou mais processadores, sua própria memória local com um espaço de endereçamento próprio. o O acesso à memória das máquinas vizinhas não é direto, precisando utilizar o paradigma de troca de mensagens para realizar a comunicação entre os nós do sistema. o Cada nó executa uma cópia distinta do sistema operacional. Devido a essas características, esses sistemas são classificados como multicomputadores NORMA. Exemplos: Intel Paragon, Connection Machine CM-5 e o IBM SP2. Alexandre César Muniz de Oliveira UFMA/DEINF - 30

31 Exemplos de Modelos Físicos de Máquinas MIMD Redes de Estações de Trabalho (NOW Network of Workstations): são sistemas compostos por várias estações de trabalho ou computadores pessoais interligados por tecnologia tradicional de rede, como a Ethernet ou ATM. o Na prática, uma rede local de estações usada na execução de aplicações paralelas. o Sob o prisma das arquiteturas paralelas, a rede local pode ser vista como uma máquina paralela em que vários processadores, com suas memórias locais, são interligados por uma rede, constituindo uma máquina NORMA de baixo custo (ROSE & NAVAUX, 2003). o As diferenças em relação à arquitetura MPP consistem basicamente na hierarquia de barramento utilizada nas estações, além da presença de um disco local nos nós e da rede de interconexão utilizada. Alexandre César Muniz de Oliveira UFMA/DEINF - 31

32 Exemplos de Modelos Físicos de Máquinas MIMD Máquinas Agregadas (COW Cluster of Workstations): são sistemas, assim como as NOWs, compostos por várias estações de trabalho ou computadores pessoais - Cluster Beowulf (BECKER et al., 1995) - interligados através de uma rede de comunicação. o A diferença entre uma e outra é que as máquinas COWs, ou simplesmente Cluster, são projetadas com o objetivo específico de executar aplicações paralelas, retirando o caráter genérico das NOWs. o Geralmente os clusters são classificados em dois grupos (STERLING, 2002): Agregados Homogêneos: são clusters onde todos os nós são idênticos, ou seja, todas as máquinas são exatamente as mesmas. São mais simples de se trabalhar, pois como as máquinas são idênticas tem-se a certeza que o software vai funcionar da mesma maneira em todos os nós. Agregados Heterogêneos: é o oposto dos clusters homogêneos, ou seja, as máquinas diferem umas das outras Máquinas totalmente diferentes umas das outras, como estação UltraSparc trabalhando em conjunto com CPUs 486, etc.; Máquinas da mesma arquitetura, mas de diferentes gerações, como CPUs Pentium trabalhando com outras CPUs Pentium II, Pentium III, Pentium IV, 486, etc Alexandre César Muniz de Oliveira UFMA/DEINF - 32

33 Exemplos de Modelos Físicos de Máquinas MIMD Máquinas Agregadas o Quanto à rede de interconexão: clusters interligados por redes padrão: baseados em Ethernet, usando-se chaveadores (switches) em detrimento aos hubs que funcionam como grandes barramentos, (RUEDA & MAHESWARAN, 2003); baixo custo das placas permite muitos nós clusters interligados por redes de baixa latência: placas de interconexão específicas que implementam protocolos de rede de baixa latência otimizados para as características de comunicação de aplicações paralelas. O custo mais alto das placas torna muito caro construir máquinas com muitos nós. A máquina resultante fica mais equilibrada na relação poder de processamento do nó e desempenho da rede Obtém-se um bom desempenho, mesmo com aplicações que necessitem muita comunicação (ROSE & NAVAUX, 2003). Alexandre César Muniz de Oliveira UFMA/DEINF - 33

34 Exemplos de Modelos Físicos de Máquinas MIMD Máquinas Agregadas o Em relação ao tipo de aplicação, têm-se dois tipos de clusters (TAVANGARIAN, 2001): Clusters de Alto Desempenho (HPC High Performance Cluster): são destinados a resolver problemas complexos, que exigem alto poder de processamento. Em geral, os relacionados a cálculos científicos. Clusters de Alta Disponibilidade (HAC High Availability Cluster): são destinados a manter em operação por quase 100% do tempo alguns serviços ou evitar que os mesmos sofram panes de operação por excesso de requisições. o O projeto de HA Clusters depende de quais serviços (Páginas Web, , FTP, Banco de dados) se deseja manter em operação. o O importante durante o projeto é definir onde se encontram possíveis pontos de falhas e a partir daí instituir políticas de redundância. Alexandre César Muniz de Oliveira UFMA/DEINF - 34

35 Exemplos de Modelos Físicos de Máquinas MIMD Máquinas agregadas o Apesar de ser uma alternativa atrativa e bem sucedida à execução de aplicações paralelas, os clusters ainda apresentam alguns inconvenientes: A configuração dos nós não é trivial. É necessário ter boa experiência e conhecimento de administração de sistemas clone-unix; Há poucos softwares de gerenciamento de cluster. O mais conhecido é o Mosix (BARAK & LA ADAN, 1998). Como em geral são de caráter dedicado, especialmente os HPCs, tem-se ter um certo grau de ociosidade na utilização desse tipo de sistema. Alexandre César Muniz de Oliveira UFMA/DEINF - 35

36 Exemplos de Modelos Físicos de Máquinas MIMD Grids são sistemas mais fracamente acoplados, diversos e complexos que outras plataformas de execução de processos paralelos e/ou distribuídos. o São considerados o passo natural depois das NOWs, no sentido de maior heterogeneidade e maior distribuição (FOSTER et al, 2001). o As características básicas de um sistema grid são (LI & CORDE, 2005): Heterogeneidade de seus componentes; Alta dispersão geográfica: até em escala mundial; Compartilhamento: não precisa ser dedicado a uma aplicação; Múltiplos domínios administrativos: podem congregar recursos de várias instituições; e Controle distribuído: tipicamente não há uma única entidade que tenha poder sobre todo o grid. Alexandre César Muniz de Oliveira UFMA/DEINF - 36

37 Exemplos de Modelos Físicos de Máquinas MIMD Grids o Outras características Os componentes de um grid não se restringem a processadores, podendo ser, por exemplo, SMPs e MPPs. Grids tipicamente não fornecem uma imagem comum do sistema para seus usuários (FOSTER et al., 2002). Componentes de um grid podem variar sobremaneira em capacidade, software instalado, sistemas de arquivo montados e periféricos instalados. Um dado usuário pode ter acesso e permissões bastante diversas nos diferentes componentes de um grid (LI & CORDE, 2005). O grid não pode ser dedicado a um usuário, embora seja possível que algum componente possa ser dedicado (um MPP, por exemplo). Uma aplicação grid deve estar preparada para lidar com todo este dinamismo e variabilidade da plataforma de execução, Adaptação da aplicação ao cenário que se apresenta com o intuito de obter o melhor desempenho possível no momento (CIRNE & MARZULLO, 2003). Alexandre César Muniz de Oliveira UFMA/DEINF - 37

38 Questões quanto ao tipo da aplicação Assim como os demais tipos de computadores paralelos vistos até o momento, também nos grids computacionais alguns tipos de aplicações são beneficiados ao utilizarem essa estrutura, tais como aplicações que requerem pouca ou nenhuma comunicação são as mais beneficiadas. Bag of Tasks são aquelas cujas tarefas são independentes, isto é, não se comunicam e podem ser executados em qualquer ordem. Devido à alta dispersão geográfica, são mais indicadas para aplicações que trocam muita informação as SMPs, MPPs e Clusters. Pode-se utilizar uma variação das NOWs para possibilitar a execução eficiente de aplicações paralelas, mesmo as que requeiram uma boa taxa de troca de informações. O custo final dessa alternativa é mínimo, já que se utiliza uma estrutura de rede já existente. As alterações que suportam de forma eficiente a execução de aplicações paralelas basicamente são realizadas no nível de software. Alexandre César Muniz de Oliveira UFMA/DEINF - 38

39 1.4 Software para Provimento de Computação Paralela Alexandre César Muniz de Oliveira UFMA/DEINF - 39

40 Requisitos para emprego eficiente de Computação Paralela A infra-estrutura computacional: hardware paralelo O algoritmo paralelo: envolve muito mais que apenas determinar uma seqüência de passos, como nos algoritmos seqüenciais. o Essa necessidade de incorporar os conceitos de paralelismo em um algoritmo requer do programador uma análise e modelagem do problema mais cuidadosa do que a dispensada na modelagem de algoritmos seqüenciais. o Durante a fase de modelagem de um algoritmo paralelo devese determinar pontos onde um trecho de código depende dos resultados de alguma outra parte do mesmo código (ANDREWS, 2003). Dependência de Dados: Existe quando uma operação não pode proceder até que dados provenientes de outra operação estejam disponíveis. Dependência de Controle: Existe quando uma linha de controle depende de outra para poder ser executada. o Dependências de controle são mais comuns que as dependências de dados. Alexandre César Muniz de Oliveira UFMA/DEINF - 40

41 1.5 Suporte à Programação Paralela Alexandre César Muniz de Oliveira UFMA/DEINF - 41

42 Necessidades inerentes à programação paralela A programação seqüencial utiliza recursos disponíveis através de uma linguagem de máquina ou de uma maneira mais usual, por meio de linguagens de alto nível como C, Pascal e Fortran, que permitem o uso de abstrações (por exemplo, if, else, while) que são traduzidas automaticamente em código executável. A programação paralela necessita de recursos não disponíveis diretamente nessas linguagens. São necessários métodos (ALMASI & GOTTLIEB, 1994): o para definir quais tarefas serão executadas paralelamente, o para a ativação e finalização da execução dessas tarefas Alexandre César Muniz de Oliveira UFMA/DEINF - 42

Exibir mais