Faculdade de Computação 3 a Prova de Arquitetura e Organização de Computadores 2 Parte I Prof. Cláudio C. Rodrigues

Transcrição

1 Faculdade de Computação 3 a Prova de Parte I Prof. Cláudio C. Rodrigues Nome: Matrícula: Valor: 15 Nome: Matrícula: Valor: 15 Nome: Matrícula: Valor: 15 Nome: Matrícula: Valor: 15 Problemas: P1. Qual o princípio de funcionamento das arquiteturas SIMD? Comente para as arquiteturas SIMD o parâmetro "granularidade" dos processadores. P2. Quais são as características do paralelismo em uma máquina SIMD e MIMD? Como se assemelham SIMD e MIMD? Como se diferenciam? Note, você não deve definir os termos, e sim, comparar os modelos. P3. SIMD Processing: Suponha que desejamos projetar um SIMD engine que possa suportar vetores de comprimento 16. Temos duas opções de implementação: um Vector Processor tradicional ou Array Processor tradicional. Qual das implementações é a de maior custo em termos da complexidade e tamanho do circuito lógico? Explique o porquê? P4. Quais são as características das arquiteturas UMA (acesso uniforme à memória) e NUMA (acesso não uniforme à memória), quanto: (a) número de processadores, (b) rede de interconexão, (c) tempo de acesso à memória? Faça um esquema em blocos das arquiteturas UMA, NUMA e ccnuma. P5. Presença de caches privados em multiprocessadores necessariamente introduz problemas de coerência e consistência de cache. Descreva o significado de coerência de cache e consistência de memória. P6. Uma estratégia para o problema de integridade das informações seria rotulá-las como cacheable e noncacheable. a. Quais vantagens e desvantagens desta solução? b. Analise a afirmação: As instruções sempre podem ser colocadas nas caches privados pois são exclusivas do processo e não podem ser compartilhadas pelos demais processos. P7. Na sua opinião, quais são os fatores impeditivos, mais significativos, para obtenção de um ganho de desempenho (speedup) em arquiteturas chip multi-core de N núcleos (independentemente de encontrar um bom algoritmo paralelo)? (liste no mínimo dois fatores) P8. Coerência de dados em um sistema com múltiplas memórias caches contendo cópias de dados que estão armazenados em uma memória principal, significa a leitura do último valor escrito no determinado dado. Existem dois métodos básicos para se manter a coerência: protocolos snoopy e diretórios. Explique cada um, diferenciando-os. Comente: (a) quando um ou outro deve ser utilizado, (b) desenhe um esboço da arquitetura de ambos os métodos. P9. Considere a estrutura e operação do snooping cache protocol: Identifique e descreva em quais situações a memória primária (SDRAM) não estará atualizada? P10. Explique a diferença entre arquitetura fracamente acoplada e fortemente acoplada. Em sistemas paralelos fracamente acoplados o envio de mensagens longas é mais eficiente do que o envio de curtas, por quê? P11. Uma alternativa para o aumento de desempenho é o uso de processadores com múltiplos núcleos (multicores). Nesses sistemas, cada núcleo, normalmente, tem funcionalidades completas de um processador. Atualmente é comum configurações com 4 ou mais núcleos. Com relação ao uso de multicores, 1a

2 e sabendo que threads são estruturas de execução associadas a um processo, que compartilham áreas de código e dados, mantendo contextos independentes, faça uma análise crítica das asserções abaixo: Tendo suas atividades divididas em múltiplos threads que podem ser executadas paralelamente, aplicações podem se beneficiar mais efetivamente dos diversos núcleos dos processadores multicores O SO executando em processadores multicores pode alocar os núcleos existentes para executar simultaneamente diversas sequências de código, sobrepondo suas execuções e, normalmente, reduzindo o tempo de resposta das aplicações às quais estão associadas. P12. Considere duas tarefas T1 e T2 que serão executadas em um sistema com 2 (dois) processadores, onde cada tarefa será atribuída a um processador diferente. As tarefas T1 e T2 poderão ter restrições de precedência. Como podemos assegurar a sequência correta das tarefas executadas em um sistema de memória compartilhada? P13. Identifique e descreva todas as similaridades e diferenças entre as arquiteturas de processamento de dados vetoriais e GPUs. P14. Detectar e Explorar o paralelismo presente em nível de loops é uma das técnicas utilizadas pelos compiladores para explorar arquiteturas paralelas (Vetoriais, SIMD Streams, GPUS e multicore CPU). Podemos definir precisamente quando o loop pode ser paralelizável, identificando as dependências que dificultam a paralelização do loop e aplicando técnicas para eliminar alguns tipos de dependências. Do ponto de vista da arquitetura do computador, podemos explorar todos os tipos de paralelismos (ILP, DLP e TLP) se pudermos identificar onde, nos loops, estão as dependências e removê-las. Considere o código abaixo: analise a possibilidade de paralelização das operações vetoriais, identificando as dependências loop-carried. for (i=0; i<100; i=i+1) { A[i] = A[i] + B[i]; /* S1 */ B[i+1] = C[i] + D[i]; /* S2 */ } a. Quais são as dependências presentes entre as sentenças S1 e S2? b. Transforme este fragmento de código em código paralelo. P15. Uma redução combina todos os elementos de uma coleção em um único. Dado uma coleção de n elementos, usando um operador qualquer, dois elementos adjacentes podem ser escolhidos e combinados em um único, resultando n-1 elementos. Este processo pode ser repetido até que sobre somente 1 elemento. Se o operador utilizado for a adição, então a redução calcula a soma de todos os elementos da coleção. Se for o máximo, então calcula o maior valor da coleção. Transforme a redução apresentada no fragmento de código abaixo em um código de execução paralela: for (i=9999; i>=0; --i) sum = sum + x[i] * y[i]; P16. GPUs and SIMD: Definimos a taxa de utilização SIMD para um programa executando em uma GPU como a fração de pistas SIMD (SIMD lanes) que estão ocupadas com threads ativas durante a execução de um programa. Considere o fragmento de código abaixo, executando em uma GPU. Cada thread executa uma única iteração do loop mostrado. Assumir que os valores dos elementos dos arrays A, B e C já estão carregados em registradores vetoriais, assim, não há a necessidade de nenhuma operação de load ou store neste fragmento. Um Warp na GPU consiste de 64 threads, e há 64 pistas SIMD na GPU. (dica: Observe que há 4 instruções em cada thread) for (i = 0; i < ; i++) { if (A[i] > 0) { A[i] = A[i] * C[i]; B[i] = A[i] + B[i]; C[i] = B[i] + 1; } } a. Quantos warps serão necessários para executar esse programa? b. Qual á a taxa de utilização SIMD para esse programa? É possível obter uma taxa de utilização SIMD de 100%? 2a

3 P17. Computação de dados esparços (Sparse computations) são comuns em sistemas HPC (High-Performance Computing), mas difícil de computar devido a aparição de race conditions. Considere o problema abaixo ( scatter ou histogram problem): for (i=0; i<16; i++) { A[B[i]]++; } index = vload &B[i] old_val = vgather A, index new_val = vadd old_val, +1.0 vscatter A, index, new_val // Load 16 B[i] // Grab A[B[i]] // Compute new values // Update A[B[i]] a. Identifique o problema de race condition que surgiria na execução vetorial do código. O que poderia ser feito para eliminar o problema? P18. A equipe de projeto de um microprocessador RISC de alto desempenho está considerando a inclusão de uma unidade de processamento vetorial, a fim de maximizar a vazão (throughput) de aplicações numéricas. A unidade vetorial contém dois pipelines-aritméticos de 5 estágios, capazes de uma operação de adição e uma operação de multiplicação de ponto flutuante por ciclo de relógio, respectivamente. Os operandos para as operações vetoriais são obtidos a partir de um banco de oito registradores vetoriais, cada um contendo 64 elementos. Você pode assumir o consumo de 5 ciclos (latência) para iniciar cada instrução de vetorial. A aplicação alvo, para o qual o novo processador está sendo avaliado, é sabido que 75% de todas as operações podem ser executadas dentro de uma instrução vetorial. Inicialmente, espera-se que o processador opere em 500 MHz. a. Qual é a vazão máxima da unidade vetorial de ponto flutuante? b. Qual é a vazão sustentada da unidade vetorial de ponto flutuante? Indique quaisquer suposições feita. c. Um membro da equipe de projeto sugere a mesclagem do banco de registradores vetorial com o banco de registradores de propósito geral. Discuta se isso seria uma boa ideia ou não. d. As simulações indicam que a taxa de vazão obtida nas operações de ponto flutuante é 10 vezes superior a vazão obtida em um processador equivalente sem uma capacidade de processamento vetorial. Qual é a aceleração esperada do aplicativo de destino devido à capacidade de processamento vetorial? e. Há um debate acalorado entre os criadores de compiladores e projetistas de hardware sobre como melhorar a velocidade do processamento vetorial na aplicação alvo. Os projetistas de hardware acreditam que devem aumentar a frequência de clock do pipeline da unidade vetorial, mas os criadores de compiladores acreditam que a empresa deve investir em melhorias das ferramentas de compilação para aumentar o nível de vetorização. Discuta os méritos de cada ponto de vista. P19. Analise de dependência e vetorização: Faça uma análise dos fragmentos de códigos abaixo (loops), encontre todas as dependências e responda se o fragmento é vetorizável ou não. Se for possível vetorizálo, apresente a versão vetorizada com o mesmo comportamento do original. a. for i := 1 to N do A[i] := A[i] + B[i-1]; b. c. for i := 1 to N do A[i+1] := A[i] + 1; for i := 1 to N step 2 do A[i] := A[i-1] + A[i]; P20. Considere que você tenha 10 núcleos processadores para resolver um problema utilizando programação paralela. Considere que 98% do seu código é paralelizável. É possível obter uma melhoria de desempenho (speedup) de fator 7? Se a resposta for sim, quantos núcleos processadores serão necessários? 3a

4 4a

5 5a

6 6a

7 7a

8 8a

9 9a

10 10a