28 de Abril de Aula 14

Transcrição

1 28 de Abril de Arquitecturas superescalares Aula 14

2 Estrutura desta aula Arquitecturas VLIW e superescalares Emissão de instruções Emissão de 2 vias Superescalares com agendamento dinâmico Exemplo com 2 vias de emissão Especulação por hardware Reorder Buffers (ROB) Esquema de Tomasulo especulativo Ref: Hennessy e Pattersson, 3.6, de Abril de 2005 Arquitectura de Computadores 2004/05 2-Aula 14

3 Emissão de múltiplas l instruções/ciclo Duas variantes Processadores superescalares: número variável de instruções/ciclo (1 a 8), agendadas (escalonadas) pelo compilador ou por hardware (Tomasulo) IBM PowerPC, Sun UltraSparc, DEC Alpha, HP 8000 (Very) Long Instruction Words (V)LIW: número fixo de instruções (4-16) agendadas pelo compilador Intel Architecture-64 (IA-64): Explicitly Parallel Instruction Computer (EPIC) Na expectativa de CPI < 1, usamos geralmente IPC em vez de CPI 28 de Abril de 2005 Arquitectura de Computadores 2004/05 3-Aula 14

4 VLIW vs superescalares dinâmicos As arquitecturas VLIW/EPIC emitem múltiplas instruções por ciclo de relógio mas utilizam: Agendamento estático: o compilador define pacotes de instruções a executar em paralelo código específico para processador As arquitecturas superescalares usam: agendamento estático agendamento dinâmico agendamento dinâmico com especulação 28 de Abril de 2005 Arquitectura de Computadores 2004/05 4-Aula 14

5 Superescalares (1) Arquitecturas super-escalares com agendamento dinâmico Número variável de instruções a emitir por ciclo de relógio (e.g. 0-4) Decide dinamicamente a emissão de instruções em paralelo Capacidade d de fazer o fetch de várias instruções (pacote) Unidade de emissão com capacidade para definir quais as instruções num pacote que podem ser emitidas em paralelo Unidade de emissão de instruções (pode ser pipeline) Identifica conflitos dentro dum pacote de instruções Identifica conflitos entre instruções de diferentes pacotes 28 de Abril de 2005 Arquitectura de Computadores 2004/05 5-Aula 14

6 Superescalares (2) Pode-se considerar a possibilidade de emitir em paralelo qualquer combinação de instruções Mas podem-se criar conflitos estruturais (várias instruções a disputar simultaneamente os mesmos recursos) Com restrições, simplifica-se a unidade de emissão Por exemplo poder apenas emitir 1 instrução inteira e 1 FP por cada ciclo de relógio reduz consideravelmente os conflitos Únicos 2 casos LD.D F1,0(R1) ADD.D D F4,F2,F1F2 F1 ou ADD.D F3,F2,F1 SD.D D F3,0(R1) Mas impede a exploração máxima de ILP Outras instruções inteiras: LD, SD, BR, ALU int, FP Move O impacto dos conflitos aumenta com o número de instruções a realizar em paralelo 28 de Abril de 2005 Arquitectura de Computadores 2004/05 6-Aula 14

7 Superescalares (3) M IPS64 Superescalar de 2 vias: 2 instruções, 1 FP & 1 inteira Fetch 128-bits/ciclo de relógio cycle Apenas emite a 2ª instrução se a 1ª for emitida Mais portos na FPR para permitir FP load (inteira) & FP op num pacote Tipo Andares do pipeline Instrução inteira IF ID EX MEM WB Instrução FP IF ID EX MEM WB Instrução inteira IF ID EX MEM WB Instrução FP IF ID EX MEM WB Instrução inteira IF ID EX MEM WB Instrução FP IF ID EX MEM WB 28 de Abril de 2005 Arquitectura de Computadores 2004/05 7-Aula 14

8 Superescalares (4) Se salto condicionado Tipo Andares do pipeline Instrução inteira IF ID EX MEM WB Instrução FP IF ID EX MEM WB 3 slots de atraso Instrução inteira IF ID EX MEM WB Instrução FP IF ID EX MEM WB Instrução inteira IF ID EX MEM WB Instrução FP IF ID EX MEM WB Numa arquitectura com 1 instrução por ciclo de relógio apenas 1 slot de atraso Com uma arquitectura superescalar de 2 vias temos 3 slots de atraso depois de um branch A instrução na outra metade do pacote não pode ser utilizada, nem as instruções do próximo slot 28 de Abril de 2005 Arquitectura de Computadores 2004/05 8-Aula 14

9 Superescalares (5) Indispensável a predição dinâmica de saltos Numa arquitectura escalar (emissão de 1 instrução por ciclo) a predição de saltos é útil para aumentar o CPI Numa arquitectura superescalar de n vias a predição é indispensável Podem ocorrer n vezes mais saltos do que numa arquitectura escalar O impacto relativo dos stalls devidos aos saltos incorrectamente previstos é maior com um CPI menor (lei de Amdahl) Em condições muito especiais, é possível obter CPI = 0,5 ou IPC = 2 para uma arquitectura superescalar com emissão de 2 vias Desde que exactamente 50% de instruções FP Na ausência de conflitos 28 de Abril de 2005 Arquitectura de Computadores 2004/05 9-Aula 14

10 Superescalares (6) Exemplo com 2 instruções por ciclo de relógio e CPI = 0,5 28 de Abril de 2005 Arquitectura de Computadores 2004/ Aula 14

11 Superescalares (7) Se mais instruções forem emitidas no mesmo ciclo, maior dificuldade com a descodificação e com a emissão Mesmo com um processador 2-escalar => examinar 2 códigos operação, 6 campos de registos, e decidir se se podem emitir 1 ou 2 instruções (existência ou não de conflitos) VLIW: troca espaço ocupado pelas instruções por descodificação difi simples A instrução longa tem espaço para várias operações Por definição, todas as operações que o compilador coloca na instrução longa são independentes d => podem ser executadas em paralelo Ex.: 2 operações inteiras, 2 ops FP, 2 referências à memória de dados, 1 salto 16 a 24 bits por campo => 7*16 ou 112 bits a 7*24 ou 168 bits 28 de Abril de 2005 Arquitectura de Computadores 2004/ Aula 14

12 Superescalares (8) 28 de Abril de 2005 Arquitectura de Computadores 2004/ Aula 14

13 Superescalar dinâmico O hardware pode emitir (0 -> 8) instruções/ciclo Emissão em ordem Emissão arbitrária de k vias Qualquer combinação de k instruções por qualquer ordem Emissão não arbitrária de k vias Ex. k/2 instruções inteiras, i k/2 instruções FP Todos os conflitos são verificados no andar de emissão Entre instruções a ser emitidas, e entre estas e as instruções em execução 28 de Abril de 2005 Arquitectura de Computadores 2004/ Aula 14

14 A emissão de instruções (1) Processador superescalar com agendamento dinâmico de k vias IPreF: Prefetch de instruções IF: Examina cada instrução do pacote e verifica se há conflitos entre as instruções IS1: Decide quantas instruções do pacote podem ser emitidas simultaneamente IS2: Examina as instruções seleccionadas por IS1 e as que já foram emitidas e verifica se há conflitos, caso em que não emite as primeiras 28 de Abril de 2005 Arquitectura de Computadores 2004/ Aula 14

15 A emissão de instruções (2) O andar de emissão é complexo Determina o período de relógio O andar de emissão é pipelined para poder emitir k instruções em cada ciclo de relógio Muitos superescalares com agendamento estático e todos os superescalares com agendamento dinâmico têm um andar de emissão que é pipelined Maiores penalizações por saltos incorrectamente previstos Aumento do número de vias de emissão maior o pipeline de emissão Não é fácil Limitações da frequência de relógio nos superescalares Ou então aumenta-se a profundidade do pipeline de emissão Mas neste caso as penalizações pelos saltos incorrectos são ainda maiores! 28 de Abril de 2005 Arquitectura de Computadores 2004/ Aula 14

16 A emissão de instruções (3) Combinações diferentes de emissões FP op FP load, LD.D Mais portos na FPR para permitir o FP load e o FP op no mesmo período de relógio 28 de Abril de 2005 Arquitectura de Computadores 2004/ Aula 14

17 A emissão de instruções (4) Combinações diferentes de emissões (cont.) 28 de Abril de 2005 Arquitectura de Computadores 2004/ Aula 14

18 MIPS superesc. dinâmico de 2 vias 1. Fetch de duas instruções da unidade de Prefetch ou da cache 2. Determina quantas instruções podem ser emitidas no pacote nesse ciclo de relógio: 0, 1 ou 2 3. Emite essas instruções para a unidade funcional correcta 28 de Abril de 2005 Arquitectura de Computadores 2004/ Aula 14

19 Emissão de 2 vias É fácil fazer o fetch de I1 e de I2, ou de I3 e I4 Mas e quanto a I2 e I3? A maioria dos processadores apenas emite I2 Usar uma unidade de prefetch 28 de Abril de 2005 Arquitectura de Computadores 2004/ Aula 14

20 Conflitos Pacotes de emissão potenciais { }, {INT}, {FP}, {INT, FP}, {FP,INT} Muitos dos conflitos podem ser resolvidos dentro do pacote de emissão {FP load/store/move, FP} Conflito estrutural na FPR LD.D D F2,0(R1) ADD.D F2,F1,F1 Conflito RAW LD.D F1,0(R1) ADD.D F2,F1,F1 Conflitos WAW e WAR resolvidos entre pacotes 28 de Abril de 2005 Arquitectura de Computadores 2004/ Aula 14

21 Superesc. com escalon. dinâmico 2 soluções fundamentais Emitir uma instrução a cada meio ciclo de relógio (pipeline) Duas instruções processadas em cada ciclo Emissão e despacho Acrescentar a lógica necessária à emissão simultânea de duas instruções Dependências entre as instruções Ambas as soluções Pipeline & lógica suplementar Emissão em ordem Integração da predição dinâmica de saltos no pipeline com escalonamento dinâmico 28 de Abril de 2005 Arquitectura de Computadores 2004/ Aula 14

22 Exemplo com 2 vias de emissão (1) Emitir um par de instruções se as estações de reserva correspondentes estiverem disponíveis Emitir o par mesmo que haja dependências Estender o esquema de Tomasulo para lidar com unidades funcionais e register files para inteiros e para FP Admitir que os andares Emite & Escreve Resultado do esquema de Tomasulo levam um ciclo de relógio cada Admitir ainda que existe hardware para predição dinâmica de saltos com predição sempre correcta uma unidade de avaliação da condição de salto uma ALU para inteiros (para cálculo de endereços e para operações ALU) uma unidade FP pipelined 28 de Abril de 2005 Arquitectura de Computadores 2004/ Aula 14

23 Exemplo com 2 vias de emissão (2) Consideremos o seguinte ciclo LOOP: L.D F0, 0(R1) ; F0 = elemento do array ADD.D F4, F0, F2 ; adiciona escalar in F2 S.D F4, 0(R1) ; guarda resultado DADDIU R1, R1, #-8 ; decrementa ponteiro de 8 bytes BNE R1, R2, LOOP ; salta se R1!= R2 Vamos desdobrar este ciclo por 3 iterações Latência do ADD.D = 3 ciclos 28 de Abril de 2005 Arquitectura de Computadores 2004/ Aula 14

24 Exemplo com 2 vias de emissão (3) Itr Instrução Emissão Exec Mem Escreve CDB Comentário 1 1 L.D F0, 0(R1) ADD.D F4,F0,F2 1 S.D F4, 0(R1) 2 1 DADDIU R1,R1# BNE R1,R2,LOOP L.D F0, 0(R1) ADD.D F4,F0,F2 S.D F4, 0(R1) DADDIU R1,R1#-8 BNE R1,R2,LOOP L.D F0, 0(R1) ADD.D F4,F0,F2 S.D F4, 0(R1) DADDIU R1,R1#-8 3 BNE R1,R2,LOOP Espera por L.D Conflito 8 Dados RAW 3 9 Espera por ADD.D Conflito 4 5 Espera pela ALU estrutural 6 Espera por DADDIU Espera por BNE completo Conflito controlo Espera por L.D 8 14 Espera por ADD.D Conflito de estrutural 9 10 Espera pela ALU 11 Espera por DADDIU Espera por BNE completo Espera por L.D Espera por ADD.D Espera pela ALU 16 Espera por DADDIU 28 de Abril de 2005 Arquitectura de Computadores 2004/ Aula 14

25 Exemplo com 2 vias de emissão (4) Notar que O ritmo de emissão de instruções é IPC = 5/3 = 1,67e CPI = 06 0,6 Mas o ritmo de execução de instruções é bastante mais baixo IPC = 15/16 = 0,94e CPI = 1,07 > 1 28 de Abril de 2005 Arquitectura de Computadores 2004/ Aula 14

26 Exemplo com 2 vias de emissão (5) Utilização dos recursos E se usarmos um somador suplementar para o cálculo dos endereços dos Loads e ainda um segundo CDB? 28 de Abril de 2005 Arquitectura de Computadores 2004/ Aula 14

27 Exemplo com 2 vias de emissão (6) Itr Instrução Emissão Exec Mem Escreve CDB Comentário 1 1 L.D F0, 0(R1) ADD.D F4,F0,F2 1 S.D F4, 0(R1) 2 1 DADDIU R1,R1# BNE R1,R2,LOOP L.D F0, 0(R1) ADD.D F4,F0,F2 S.D F4, 0(R1) DADDIU R1,R1#-8 BNE R1,R2,LOOP L.D F0, 0(R1) ADD.D F4,F0,F2 S.D F4, 0(R1) DADDIU R1,R1# Espera por L.D Espera por ADD.D 3 4 Executa antes 5 Espera por DADDIU Espera por BNE completo 9 12 Espera por L.D 7 13 Espera por ADD.D 6 7 Executa antes 8 Espera por DADDIU Espera por BNE completo Espera por L.D Espera por ADD.D 9 10 Executa antes 3 BNE R1,R2,LOOP 9 11 Espera por DADDIU Segundo CDB Eliminação dos conflitos estruturais que dependiam da unidade inteira única 28 de Abril de 2005 Arquitectura de Computadores 2004/ Aula 14

28 Exemplo com 2 vias de emissão (7) Agora O ritmo de emissão de instruções ainda é IPC = 5/3 = 1,67e CPI = 06 0,6 Mas o ritmo de execução de instruções é maior do que anteriormente IPC = 15/11 = 1,37e CPI = 0,73 < 1 Porém, agora vamos ter uma menor utilização das Unidades Funcionais, como mostra o quadro a seguir 28 de Abril de 2005 Arquitectura de Computadores 2004/ Aula 14

29 Exemplo com 2 vias de emissão (8) 28 de Abril de 2005 Arquitectura de Computadores 2004/ Aula 14

30 Desempenho (1) Quais são os factores limitativos do desempenho do processador superescalar com agendamento dinâmico e emissão de 2 vias ao executar o ciclo anterior? Desiquilíbrio entre a estrutura de pipeline e o ciclo que serviu de exemplo impossibilidade de utilizar plenamente as unidades de FP é necessário que o ciclo possua menos operações inteiras i com dependências overhead do ciclo muito elevado (2/5) Tentar reduzir este overhead ver mais à frente soluções possíveis O conflito de controlo assinalado impede a execução do LD.D antes de o BNE do ciclo anterior ter acabado a sua execução ver a seguir a especulação por hardware 28 de Abril de 2005 Arquitectura de Computadores 2004/ Aula 14

31 Desempenho (2) E ainda... Se os saltos continuarem a ser correctamente previstos Aparecem conflitos estruturais porque a unidade de emissão acaba por encher as estações de reserva Os conflitos de controlo têm um grande impacto no desempenho do pipeline No caso anterior (situação a verde no acetato seguinte) atrasa directamente 1 ciclo por iteração e vai provocar indirectamente um conflito estrutural (a vermelho) 28 de Abril de 2005 Arquitectura de Computadores 2004/ Aula 14

32 Desempenho (3) Itr Instrução Emissão Exec Mem Escreve CDB Comentário 1 1 L.D F0, 0(R1) ADD.D F4,F0,F S.D F4, 0(R1) 2 1 DADDIU R1,R1# BNE R1,R2,LOOP 3 2 L.D F0, 0(R1) 4 2 ADD.D F4,F0,F2 4 2 S.D F4, 0(R1) 5 2 DADDIU R1,R1# BNE R1,R2,LOOP 6 3 L.D F0, 0(R1) 7 3 ADD.D F4,F0,F Espera por L.D Espera por ADD.D 3 4 Executa antes 5 Espera por DADDIU Espera por BNE completo 9 12 Espera por L.D 7 13 Espera por ADD.D 6 7 Executa antes 8 Espera por DADDIU Espera por BNE completo Espera por L.D Conflito de dados Conflito de controlo Conflito estrutural 3 3 S.D F4, 0(R1) DADDIU R1,R1# Espera por ADD.D 9 10 Executa antes 3 BNE R1,R2,LOOP 9 11 Espera por DADDIU 28 de Abril de 2005 Arquitectura de Computadores 2004/ Aula 14

33 Especulação por hardware Porém... Será possível, para além de fazer o fetch e a emissão de uma instrução, executá-la de forma especulativa? Considere-se a situação em que cada ciclo executa um salto no exemplo anterior a predição era perfeita (por hipótese) e, contudo, o CPI era apenas de 1, aproximadamente Ou seja, a predição, só por si, não é suficiente para assegurar um ILP elevado 28 de Abril de 2005 Arquitectura de Computadores 2004/ Aula 14

34 Especulação por hardware Vamos substituir a dependência de controlo especulando sobre o resultado dos saltos Executar o programa como se a especulação estivesse sempre correcta Escalonamento dinâmico: Fetch, Emissão (Não executa) Especulação: Fetch, Emissão, Execução especulativa Especulação incorrecta Desfaz-se a especulação 28 de Abril de 2005 Arquitectura de Computadores 2004/ Aula 14

35 Ideias básicas Predição dinâmica de saltos para escolher as instruções a executar especulativamente Especulação para permitir a execução de instruções a seguir aos saltos condicionados antes das dependências de controlo terem sido resolvidas Escalonamento dinâmico i para agendar diferentes combinações de blocos básicos de código PowerPC 603/604/G3/G4, MIPS R10000/R12000, Intel Pentium II/III/4, Alpha 21264, AMD K5/K6/Athlon 28 de Abril de 2005 Arquitectura de Computadores 2004/ Aula 14

36 Execução com especulação Permite executar instruções antes de resolver dependências de controlo É necessário ter a capacidade de re-iniciar a execução exactamente no ponto em se começou a especular Trata-se de um problema semelhante ao do atendimento preciso das excepções! Solução para ambos: A terminação de uma instrução é feita em ordem A terminação corresponde à escrita nos registos (Register File) ou na memória No entanto, quando acaba a execução (antes da terminação) da instrução os resultados podem ser usados especulativamente por outras instruções Fase final adicional da sequência de execução Terminar a Instrução ( instruction commit ) 28 de Abril de 2005 Arquitectura de Computadores 2004/ Aula 14

37 ROB Reorder Buffer (1) Para introduzir a Terminação da Instrução (andar de Commit ) na sequência de execução Alterar procedimentos na sequência de execução Introduzir uma memória tampão Tampão de ç reordenação ou ROB Reorder Buffer No ROB guardam-se as instruções que já foram executadas especulativamente (fora de ordem) mas que ainda não terminaram m (em segurança e em ordem) 28 de Abril de 2005 Arquitectura de Computadores 2004/ Aula 14

38 ROB Reorder Buffer (2) Emissão em ordem Execução fora de ordem Terminação em ordem 28 de Abril de 2005 Arquitectura de Computadores 2004/ Aula 14

39 ROB Reorder Buffer (3) O ROB é usado para passar resultados Guarda resultados das instruções que terminam a execução Fornece operandos desde que uma instrução acaba a execução até que é terminada (committed) Passa resultados entre instruções que podem ser executadas especulativamente No entanto, t esses resultados só são escritos nos registos (memória) quando termina a instrução Quando a instrução já não é especulativa O d d C i d O andar de Commit guarda-a São escritas as Register Files ou a memória (muda-se em definitivo o estado do processador) Um ROB contém os Store Buffers do esquema de Tomasulo 28 de Abril de 2005 Arquitectura de Computadores 2004/ Aula 14

40 Tomasulo com ROB 28 de Abril de 2005 Arquitectura de Computadores 2004/ Aula 14

41 Estrutura do ROB (1) 28 de Abril de 2005 Arquitectura de Computadores 2004/ Aula 14

42 Estrutura do ROB (2) O ROB contem 4 campos com informação Sobre o destino registo ou endereço de memória O tipo de instrução Branch; STORE (destino: endereço de memória); LOAD/ALU op (destino: número do registo) Sobre o valor resultado da instrução até a instrução ser completada com confiança e poder ser enviada para o andar de terminação (commit) Prontidão do valor ( ready? ) indica se a instrução já completou a execução, isto é se o valor é válido 28 de Abril de 2005 Arquitectura de Computadores 2004/ Aula 14

43 Estrutura do ROB (3) Cada instrução que é emitida é colocada (em ordem) no ROB Dado que cada instrução ocupa uma entrada no ROB até terminar, o resultado é identificado usando como etiqueta a entrada (buffer) do ROB e não o identificador da estação de reserva Isso significa que uma estação de reserva tem indicação do buffer que a instrução ocupa no ROB ROB FIFO de instruções em memória segundo a ordem de emissão 28 de Abril de 2005 Arquitectura de Computadores 2004/ Aula 14

44 Fases do Tomasulo especulativo (1) Para além das 3 fases do Tomasulo não especulativo, agora existe uma 4ª fase no fim, de terminação ( commit ) Emite ( dispatch ) Obtém uma instrução da fila de espera & emite-a se existir uma Estação de Reserva (RS) disponível e uma entrada no ROB. Caso contrário, faz stall. Envia operandos para a RS se os operandos estiverem disponíveis no ROB ou na Register File. Envia o número da entrada (buffer) do ROB para a RS. Posteriormente, a RS coloca o resultado e uma etiqueta no CDB. 28 de Abril de 2005 Arquitectura de Computadores 2004/ Aula 14

45 Fases do Tomasulo especulativo (2) Executa Espera pelos operandos que não estão disponíveis, observando o CDB, i.e.,., verifica a existência de conflitos RAW Quando operandos disponíveis numa RS, executa a operação As instruções podem levar múltiplos ciclos de relógio nesta fase As instruções LOAD precisam de 2 ciclos: o andar verifica se o Load está no topo do Tampão de Leitura (Load Buffer) lê da memória As instruções STORE apenas precisam de calcular o endereço efectivo, pelo que só necessitam do registo de base disponível 28 de Abril de 2005 Arquitectura de Computadores 2004/ Aula 14

46 Fases do Tomasulo especulativo (3) Escreve Resultado Coloca o resultado no CDB, conjuntamente com a etiqueta com o número da entrada do ROB Marca a RS como disponível Todas as RS e o ROB lêem o CDB As int instruções STORE precisam de uma actuação especial: Se valor disponível: escreve-o numa entrada do ROB Se valor não disponível: observa o CDB até o valor ser emitido (broadcast) e actualiza o campo de Valor na entrada do ROB 28 de Abril de 2005 Arquitectura de Computadores 2004/ Aula 14

47 Fases do Tomasulo especulativo (4) Termina a instrução ( commit ) Uma instrução termina quando chega ao topo do ROB e está correcta (instruções terminadas committed - por ordem) BRANCH com predição incorrecta: quando o Branch atinge o topo do ROB e se conhece exactamente a condição de salto Faz a limpeza ( flush ) de todas as instruções no ROB (que foram especulativa mas incorrectamente executadas não terminam) Começa a execução com a instrução correcta a seguir ao branch, no endereço alternativo do ROB STORE: quando o Store atinge o topo do ROB e o resultado está disponível terminação normal escreve na memória e retira a instrução do ROB As outras instruções: quando a instrução atinge o topo do ROB e o resultado está disponível terminação normal escreve num registo e retira a instrução do ROB 28 de Abril de 2005 Arquitectura de Computadores 2004/ Aula 14

48 ROB O ROB é implementado como um tampão circular com acesso do tipo FIFO Uma entrada é reservada na primeira fase da emissão, e é libertada sequencialmente quando a instrução é completada Para tirar partido da especulação e para atender ao seu tamanho limitado, os ROB são, geralmente, desenhados para permitir a terminação de mais do que uma instrução por ciclo de relógio 28 de Abril de 2005 Arquitectura de Computadores 2004/ Aula 14

49 Exemplo com emissão simples (1) Consideremos o mesmo exemplo usado no Tomasulo não especulativo L.D F6,34(R2) L.D F2,45(R3) MUL.D F0,F2,F4 SUB.D F8,F6,F2 F6 F2 DIV.D F10,F0,F6 ADD.D F6,F8,F2 com as mesmas latências: ADD.D 2 ciclos MUL.D 10 ciclos DIV.D 40 ciclos 28 de Abril de 2005 Arquitectura de Computadores 2004/ Aula 14

50 Exemplo com emissão simples (2) As tabelas que se seguem mostram o que acontece no ROB quando a instrução MUL.D acabou a execução e está pronta a ser terminada MUL.D está no topo do ROB As instruções LD.D terminaram apenas estão incluídas para se perceber o que aconteceu (os Buffers #1 e #2 estão disponíveis) i As instruções SUB.D e ADD.D também acabaram a execução mas ainda não terminaram só terminam depois de MUL.D terminar (terminação em ordem) Os resultados de SUB.D e de ADD.D estão, contudo, determinados e podem ser utilizados por outras instruções DIV.D D está em execução porque tem uma latência maior do que a de MUL.D 28 de Abril de 2005 Arquitectura de Computadores 2004/ Aula 14

51 Exemplo com emissão simples (3) F0 F1 F2 F3 F4 F5 F6 F7 F8 F9 F10 Reorder # Busy Y N N N N N Y N Y N Y 28 de Abril de 2005 Arquitectura de Computadores 2004/ Aula 14

52 Exemplo com emissão simples (4) 28 de Abril de 2005 Arquitectura de Computadores 2004/ Aula 14

53 Exemplo com emissão simples (5) As Estações de Reserva (RS) e o Estado dos Registos (FP no exemplo) contêm essencialmente a mesma informação que no Tomasulo não especulativo As diferenças são as seguintes As referências às RS no Tomasulo não especulativo (acetato a seguir) são substituídas por referências aos buffers do ROB nos campos Qj e Qk das RS e nos campos de estado dos Registos FP Inclui-se o campo Dest nas RS do Tomasulo especulativo 28 de Abril de 2005 Arquitectura de Computadores 2004/ Aula 14

54 Exemplo com emissão simples (6) Tomasulo não especulativo Nome Busy Op Vj Vk Qj Qk A Load1 No Load2 No Add1 No Add2 No Add3 No Mult1 Yes Mul Mem[45+Regs[R3]] Regs[F4] Mult2 Yes Div Mem[34+Regs[R3]] Mult1 F0 F1 F2 F3 F4 F5 F6 F7 F8 F9 F10 Qi Mult1 Mult2 28 de Abril de 2005 Arquitectura de Computadores 2004/ Aula 14

55 Exemplo com emissão simples (7) Estas diferenças explicam os diferentes comportamentos de um processador com especulação e de um processador com agendamento dinâmico não especulativo Nenhuma instrução das que se seguem à instrução que acabou de ser executada mas que ainda não terminou (MUL.D no exemplo) pode vir terminada No processador com agendamento dinâmico não especulativo, SUB.D e ADD.D já terminaram mas não terminaram ainda no processador especulativo O processador com ROB pode executar código dinamicamente enquanto mantém um modelo com excepções precisas. 28 de Abril de 2005 Arquitectura de Computadores 2004/ Aula 14

56 Exemplo com emissão simples (8) Exemplo: se MUL.D provocar uma excepção, podemos aguardar que a instrução chegue ao topo do ROB e, então, aceitamos a excepção com flush do resto do ROB Com agendamento dinâmico, nas mesmas circunstâncias ADD.D D e SUB.D teriam terminado antes de MUL.D provocar a excepção, os registos F8 e F6 (destinos de SUB.D e de ADD.D) teriam visto mudar os seus valores, e a excepção seria imprecisa 28 de Abril de 2005 Arquitectura de Computadores 2004/ Aula 14

57 Pó Próxima aula Técnicas de memória Fundamentos de caches 28 de Abril de 2005 Arquitectura de Computadores 2004/ Aula 14