Esse programa inclui dependências de tipo: escrita-escrita, leitura-escrita e escrita-leitura. Identifique e mostre estas dependências.

Transcrição

1 Faculdade de Computação Arquitetura e Organização de Computadores 2 2 a Lista de Exercícios Prof. Cláudio C. Rodrigues Data de Entrega: 02/06/2016 Problemas: P1) Qual é o propósito do instruction pipelining? Como uma unidade de pipeline trabalha? P2) O que são pipeline hazards? P3) Enumere e brevemente apresente os três tipos de pipeline hazards. P4) O que é pipeline flush e quando deve ser usado? P5) Data dependencies: Enumere os três tipos de dependências de dados e apresente um exemplo de cada uma. P6) Dentre as técnicas de tratamento do hazard de controle, descreva a que você considera mais eficiente e a que você considera menos eficiente e explique porque? P7) Hazards de dados em unidades pipeline podem algumas vezes serem evitadas pela técnica chamada forwarding. Como esta técnica trabalha? Apresente um exemplo no qual o forwarding produza uma aceleração na execução pipelining. P8) Considere um bloco de código com 7 instruções cada uma com tempo de execução T ex. Elas são executadas numa unidade pipeline de 6 estágios. Os overheads do pipeline são ignorados. Quanto tempo é consumido para executar as 7 instruções pela CPU pipeline? (suponha que não há hazards) Ilustre a resposta P9) O fragmento de código abaixo, apresenta a função myst escrita em MIPS assembly. Analise o código e descreva objetivamente o que a função myst faz? - considere que os argumentos de entrada $a0 e $a1 são valores não sinalizados. myst: move $v0, $0 L1: andi $t0, $a0, 1 beq $t0, $0, L2 addu $v0, $v0, $a1 L2: sll $a1, $a1, 1 srl $a0, $a0, 1 bne $a0, $0, L1 jr $ra P10) Considere o seguinte programa em linguagem de montagem: I1: move R3,R7 # R3 (R7) I2: load R8, (R3) # R8 Mem(R3) I3: add R3, R3, 4 # R3 (R3)+4 I4: load R9, (R3) # R9 Mem(R3) I5: ble R8, R9, L3 # Desvia se (R9) > (R8) Esse programa inclui dependências de tipo: escrita-escrita, leitura-escrita e escrita-leitura. Identifique e mostre estas dependências. Arquitetura e Organização de Computadores 2 1

2 P11) Identifique os conflitos de dados (data hazards) no seguinte fragmento de código MIPS e reordene as instruções para evitar qualquer suspensão do pipeline (pipeline stalls). lw $t0, ($sp) lw $t1, ($t0) addi $t1, $t1, 4 lw $t2, ($t0) add $t3, $t2, $t1 sw $t3, 4($sp) sw $zero, ($sp) P12) As instruções em anexo são executadas em um pipeline contendo 5 unidades internas: unidade de busca (IF), unidade de decodificação (ID), unidade de busca de operando (OF), unidade de execução de instrução (OE) e unidade de armazenamento de resultado (OS). Instruções distintas usam diferentes unidades para cada estágio como mostrado na tabela abaixo e somente as instruções aritméticas e de comparação afetam os flags. O número em cada estágio corresponde ao número de ciclos para execução do estágio (1 ciclo = 100 ns). Instrução T(IF) T(ID) T(OF) T(OE) T(OS) LDA reg, mem STA reg, mem ADR reg, reg SUR reg, reg CMP reg, reg JUMP end JMP cond. end a) Compute o tempo de execução para os dois programas descritos a seguir: Programa 1 Programa 2 LDA $2, 300 LDA $0, #0 LDA $0, (100) LDA $1, 200 #endereçamento direto CMP $1, $0 JPZ e1 ADD $0, $2 e1: STA $0, 100 LDA $4, 600 LDA $5,700 ADR $4, $5 LDA $6, 800 SUR $4, $6 #ender. imediato LDA $3, #1 L1:LDA $1, 100 LDA $2, 200($0) #ender. indexado ADR $1, $2 STA $1, 200($0) ADD $0, $3 CMP $0, #3 JPN L1 #desvio se menor b) Calcule o desempenho do pipeline nos dois casos. É possível melhorar este desempenho? Em caso positivo, como e de quanto se pode melhorar o desempenho dos referidos programas? Arquitetura e Organização de Computadores 2 2

3 P13) Considere um processador RISC cuja arquitetura segue o modelo ilustrado no pipeline abaixo: Na etapa ID são obtidos o opcode e os operandos de uma instrução e na etapa RF é efetuada a leitura dos registros de uso geral e a verificação de condições de salto. As restantes etapas têm as habituais funções. Os tempos de propagação associados a cada etapa encontram-se também assinalados na figura. Sabe-se também que os registos que separam as diversas etapas impõem um atraso adicional de 2 ns. Considere a seguinte sequência instruções: Load R1, R0 # R1 <- M[R0] Store R2, R1 # M[R2] <- R1 a) Apresente uma forma de resolver esta situação particular de conflito (dependências entre Load seguido de Store), sem que sejam introduzidas bolhas no pipeline. Ilustre com um esquema onde apareçam os circuitos utilizados e a(s) etapa(s) sujeita(s) a modificações. b) Aplicando a solução proposta no item (a), haverá aparição de bolhas no pipeline ao executar a sequência de código abaixo? Justifique sua resposta. Load R1, R0 # R1 <- M[R0] Add R2, R1, R3 # R2 <- R1 + R3 P14) A figura 1 ilustra o diagrama de execução de um programa submetido para uma linha de execução de instruções pipeline. O diagrama ilustra a execução até o começo da segunda iteração. Dica: há RAW hazards associados com loads, stores e branch. figura 1 diagrama de execução pipeline Ciclos LOOP: lw r1, 0(r2) IF ID EX ME WB IF ID EX ME add r3, r1, r4 IF ID EX ME WB IF ID lb r5, 0(r3) IF ID EX ME WB IF ID sb 0(r6), r5 IF ID EX ME WB IF addi r2, r2, #4 IF ID EX ME WB addi r6, r6, #1 IF ID EX ME WB slt r7, r2, r8 IF ID EX ME WB bneq r7, LOOP IF ID EX ME WB xor r10,r11,r12 IF X Faça um escalonamento das instruções (rearranjo) do programa acima, de tal modo que minimize o número de stalls (suspensões do pipeline). Escreva solução na figura 2. Arquitetura e Organização de Computadores 2 3

4 figura 2 execução da solução em pipeline Ciclos LOOP: P15) 2-bit saturating counter branch predictor: a) Explique o comportamento de um preditor de desvio de dois bits (2-bit saturating counter branch predictor). Mostre na forma de diagrama de transição de estado ou tabela o estado do preditor de 2-bits e, ilustre a transição para cada execução do desvio (branch). Contador 2-bits Predição atual Execução 00 NT NT 00 NT T 01 NT NT 01 NT T 10 T NT 10 T T 11 T NT 11 T T Novo valor do contador 2-bits b) Considere o código abaixo e o seu correspondente código assembly gerado: Código C for (i=0; i<n; i++) if (x[i] == 0) y[i] = 0.0; else y[i] = y[i]/x[i]; Código Assembly loop: else: fall: LD F1, 0(R2) LD F2, 0(R3) BNEZ F1, else ADD.D F2, F0, F0 BEZ R0, fall DIV.D F2, F2, F1 DADDI R2, R2, 8 DADDI R3, R3, 8 DSUBI R1, R1, 1 S.D -8(R3), F2 BNEZ R1, loop Dado que: o valor de N está armazenado em R1; os endereços bases para x e y estão armazenados em R2 e R3, respectivamente; o registrador F0 contém o valor 0. Assuma que o primeiro elemento de x possui o valor 1 e os elementos restantes possuem valor 0, mostre a saída das predições para o contador de predição de 2-bits utilizado para previsão do desvio mais interno (BNEZ F1, else). Assuma que o valor inicial do contador de previsão é 00. Arquitetura e Organização de Computadores 2 4

5 Iteração Contador Predição 2-bits atual 1 00 NT Execução Novo valor contador 2-bits P16) Em uma Arquitetura Superescalar existem diversas unidades responsáveis pelo bom funcionamento da proposta, entre elas podemos citar as seguintes unidades: Busca de instruções Execução Despacho Renomeação Previsão de Desvio Graduação (validação) Decodificação Reordenamento Delegação a) Descreva de maneira objetiva, quais as tarefas desempenhadas pelas unidades funcionais descritas acima. P17) Descreva as técnicas de despacho (instruction-issue policy) usadas em máquinas superescalares. Use exemplos se quiser. P18) Há duas abordagens para explorar o paralelismo em nível de instruções (ILP) no projeto dos processadores modernos: VLIW e superescalar. Exemplos dessas abordagens coexistem no mercado: o Intel Itanium (VLIW) e o IBM PowerPC (superescalar). Discorra sobre as principais vantagens e desvantagens de cada abordagem. Utilize os seguintes aspectos para elaborar a resposta: complexidade do hardware, flexibilidade no escalonamento, tolerância a latências não previsíveis; complexidade do compilador; compatibilidade do código, etc. Superescalar VLIW Arquitetura e Organização de Computadores 2 5

6 P19) Uma maneira de melhorar o desempenho é dividir o pipeline em um número maior de estágios, como no Pentium 4 comparado ao Pentium III. Isto não reduz a quantidade de tempo que ele necessita para realizar a tarefa, tais como: adições. Responda as perguntas abaixo: a) Dependências ainda são problemas ou podemos utilizar zillion de estágios pipeline? Explique b) Por que a precisão da previsão de desvios torna-se mais importante quando há mais estágios no pipeline? P20) Explique as duas políticas de execução de instruções em arquiteturas superescalares: a) in-order issue with in-order completion; b) out-of-order issue with out-of-order completion. P21) Considerando o trecho de código abaixo: a) Divida o código em blocos básicos; b) Tome o trace formado pelas instruções I1, I2, I4, I5, I6, I7, I8, I9, I11 a I16 e faça o grafo de dependências entre as instruções. Indique as dependências falsas entre duas instruções apenas quando não houver uma dependência direta entre elas; c) Utilize os registradores de R9 em diante para, através de renomeação, eliminar as dependências falsas relevantes no trace descrito no item b; d) Utilize o algoritmo List Scheduling para realizar o escalonamento das instruções do trace obtido no item c, considerando uma arquitetura VLIW, possuindo 1 ALU Inteira com Multiplicador, 1 ALU Inteira com Shifter e 1 Unidade de Load/Store. Suponha que as instruções de Load/Store consomem 2 ciclos e que a instrução de Multiplicação consome 4 ciclos; e) Determine a taxa média de instruções executadas por ciclo produzidas pelo escalonador do item d; f) Supondo que o trecho de código original fosse ser executado em uma arquitetura pipeline com delayed branch usando 1 delay slot, como você preencheria os delay slots após as instruções I3 e I10. Assuma que, como foi feito no item c, é possível fazer renomeação de registradores para eliminar dependências falsas. I1: LW R5, 0(R1) ; (R5 <= mem[r1]) I2: SLL R7,R8,1 ; (desloca R8 para a esquerda em 1 bit) I3: BEQZ R7, I5 ; (desvia para I5 se R7 igual a Zero) I4: OR R8, R8, 0x8000 ; (R8 <= R8 or 0x8000) I5: AND R5, R5, R8 ; (R5 <= R5 and R8) I6: SW 0(R1), R5 ; (mem[r1] <= R5) I7: ADD R1, R1, 4 ; (R1 <= R1 + 4) I8: LW R6, 0(R1) ; (R6 <= mem[r1]) I9: SLL R7, R8,1 ; (desloca R8 para a esquerda em 1 bit) I10: BEQZ R7,I12 ; (desvia para I12 se R7 igual a Zero) I11: OR R8, R8, 0x8000 ; (R8 <= R8 or 0x8000) I12: AND R6, R6, R8 ; (R6 <= R6 and R8) I13: ADDI R1, R1, 4 ; (R1 <= R1 + 4) I14: MULT R4, R5, R6 ; (R4 <= R5 * R6) I15: SW 0(R2), R4 ; (mem[r2], R4) I16: ADDI R2, R2, 4 ; (R2 <= R2 + 4) Arquitetura e Organização de Computadores 2 6

7 P22) Considere a execução do trecho de código ao lado no pipeline de 5 estágios, sem adiantamento. a) Modifique o código para que ele execute corretamente num processador sem lógica de bloqueios (stalls). b) Desenrole o laço (loop unrolling) uma vez e reordene as instruções para que ele execute com um mínimo de bolhas, no processador sem adiantamento e sem lógica de bloqueios. O sufixo.d indica instrução de ponto flutuante de tipo double; e f0..f8 são registradores de ponto flutuante de 64 bits. loop: ld.d f0,0(r4) ld.d f2,0(r6) mul.d f4,f2,f0 ; 1 ciclo add.d f6,f4,f8 ; f8 escalar st.d f4,0(r8) st.d f6,8(r8) addi r4,r4,8 addi r6,r6,8 addi r8,r8,16 bne r8,r9,loop ; r9 limite P23) Instruction Level Parallelism ILP: a) Explique o conceito de paralelismo em nível de instruções (ILP). b) Apresente duas razões que impeça os atuais processadores explorarem o paralelismo de instruções na prática. c) Apresente três efeitos causados pela complexidade do hardware quando tentamos ampliar a taxa de despacho nos processadores. d) Com base nas respostas dos itens (b) e (c) descreva quais propriedades um processador ideal precisaria ter para que pudesse explorar ao máximo o paralelismo de instruções presente nas aplicações. e) Em sua opinião qual das abordagens arquiteturais será mais bem sucedida no tratamento da ILP: superescalar ou VLIW? Justifique sua resposta. P24) Determine o desempenho relativo dos três processadores seguintes. Todos suportam o mesmo conjunto de instruções. i. Processador MIPS simples com emissão dupla, f = 1 GHz e CPI pipeline=1. O sistema de cache tem 0.01 falhas/instrução em média. ii. Processador MIPS com pipeline profunda, f = 1.25 GHz, CPI pipeline=1.2. Este sistema tem memórias cache mais pequenas, e apresenta uma taxa de falhas/instrução de (em média). iii. Processador superescalar especulativo com janela de 64 itens e uma taxa de emissão de 4.5 instruções/ciclo. A organização de memória cache é ainda mais pequenas, apresentado 0.02 falhas/instrução, mas o processador consegue esconder 10% da penalidade de falha. O processador funciona a f = 800 MHz. Recomendações: O trabalho deverá ser desenvolvido em equipes com um número máximo de 3 componentes. O trabalho deverá ser feito pelo grupo, qualquer evidência de cópia será penalizada com perda da pontuação. O relatório de respostas deverá apresentar o enunciado das questões, aquelas que não apresentarem o enunciado, serão desconsideradas. O relatório deverá ser entregue em cópia impressa na data definida no enunciado. Data de Entrega: 02/06/2016 Arquitetura e Organização de Computadores 2 7