Previsão de Desvios Branch Prediction

Transcrição

1 Previsão de Desvios Branch Prediction Organização de Computadores 2 Prof. Cláudio C. Rodrigues 1 Branch Prediction 1. Introdução 2. Custo de Desvios 3. Técnicas p/ redução do custo de desvio 4. Técnicas implementadas em software Delayed Branch Branch Folding In-line Desenrolamento de loops 5. Técnicas implementadas em hardware Previsão Estática Previsão Dinâmica Prediçãodeterminadapelahistóriado desvio Previsão via tabela com alvos dos desvios (Branch Target Buffer) Previsão dinâmica em dois níveis 6. Preditores Híbridos e Multi-Híbridos

2 Pipeline é uma técnica de exploração do paralelismo na execução de instruções a fim de aumentar o seu desempenho Esse paralelismo permite a execução parcial de até n instruções simultaneamente, onde n é o número de estágios do pipeline. O desempenho do pipeline só será máximo se não ocorrer o bloqueio da execução contínua dos diversos estágios de execução. As instruções de desvio condicional provocam uma queda no desempenho desses processadores, já que bloqueiam a operação contínua do pipe. O comando de desvio pode acarretar na troca do fluxo esperado de instruções, fazendo com que parte do conteúdo do pipeline seja descartado e recarregado novamente, diminuindo o desempenho. 3 Dependencias de Dados e Controle Dependências de controle são particularmente críticas quando da execução de desvios condicionais. add $5, $3, $2 data dependences sub $6, $5, $2 control dependence beq $6, $7, somewhere and $9, $3, $1

3 M ux 0 Address Calculation 1 IF/ID ID/EX EX/MEM MEM/WB Add 4 Shift left 2 Add Add result PC Address Instruction memory Read register 1 Read Read data 1 register 2 Registers Read data 2 Write register Write data 16 Sign extend 32 0 M ux 1 ALU Zero ALU result Address Write data Data memory Read data 1 M ux 0 Branch target address is put in PC during Mem stage. Correct instruction is fetched during branch s WB stage. 5 Branch Hazards CC1 CC2 CC3 CC4 CC5 CC6 CC7 CC8 beq $2, $1, here IM Reg ALU DM Reg add... IM Reg ALU DM Reg sub... IM Reg ALU DM Reg lw... here: lw... Estas instruções não devem ser executadas! IM Reg IM ALU Reg DM ALU Reg DM

4 efeito de desvios condicionais se o desvio ocorre, pipeline precisa ser esvaziado não se sabe se desvio ocorrerá ou não, até o momento de sua execução decisão sobre desvio desvio condicional instruções abandonadas próxima instrução 7 Dependências em desvios instruções abandonadas não podem ter afetado conteúdo de registradores e memórias isto é usualmente automático, porque escrita de valores é sempre feita no último estágio do pipeline deve-se procurar antecipar a decisão sobre o desvio para o estágio mais cedo possível desvios incondicionais sabe-se que é um desvio desde a decodificação da instrução ( segundo estágio do pipeline ) é possível evitar abandono de número maior de instruções. problema: Em qual estágio é feito o cálculo do endereço efetivo do

5 Segundo [HEN 96] os desvios e as trocas de fluxos são classificados em quatro tipos: desvios condicionais; desvios incondicionais; chamada a procedimentos e retorno de procedimentos. Benchmarks: 65% a 80% dos desvios são condicionais e incondicionais e o desvios de procedimentos são em torno de 10% a 20% cada. Através da análise desses dados e considerando que as dependências de controle afetam drasticamente o desempenho de processadores pipeline e que os desvios condicionais são os que melhor representam este efeito negativo. 9 Custo de Desvios Como evitar o efeito dos desvios? Empregar técnicas de previsão de desvios Usando essa previsão, as instruções pertencentes ao fluxo com maior probabilidade de execução podem ser buscadas, decodificadas e executadas antecipadamente. Porém é necessário mecanismos para desfazer eventuais operações provenientes de caminhos previstos erroneamente, acrescentando complexidade no hardware. Técnicas p/ redução do custo de desvio: Implementadas em software Implementadas em hardware

6 Implementadas em Software Estas técnicas são empregadas durante a compilação do programa de aplicação. Técnicas: Delayed Branch Branch Folding In-line Loop Unrolling 11 Delayed Branch Essa técnica de redução do custo de desvio consiste em reorganizar as instruções do programa. Essa reorganização deve preservar a equivalência semântica dos programas e minimizar os retardos impostos pela ramificação. Em uma máquina do tipo pipelining, podemos associar a cada desvio o número de instruções seguintes que serão executadas independentemente do desvio ser tomado ou não. Em outras palavras, uma instrução de desvio armazenada na posição b e que indica a posição L como alvo, é um delayed branch com retardo n se as instruções armazenadas nas posições b, b+1,..., b+n, L forem executadas.

7 Considere o trecho abaixo: 1. A := B; 2. B := B -1; 3. if A = Q then go to 7 4. Q := Q +1; 5. D := E; 6. E := F; 7. X := Q; Se o retardo da instrução (3) for igual a 1, então a seqüência de instruções executadas (se A = Q) seria: 1, 2, 3, 4, 7. Nesse caso, se o valor inicial da variável Q = q, então teremos X = q+1 no final do programa. 13 Delayed Branch Uma estratégia capaz de neutralizar o indesejável efeito da busca antecipada e execução do próximo comando, seria introduzir n instruções do tipo NOP após cada instrução de desvio com retardo igual a n. 1. A := B; 2. B := B -1; 3. if A = Q then go to 8 4. NOP; 5. Q := Q +1; 6. D := E; 7. E := F; 8. X := Q; Conforme podemos verificar, o trecho de programa será executado corretamente após a introdução do comando NOP.

8 Acréscimo de NOPs degrada o desempenho e o tamanho do código objeto. Assim, é aplicado técnicas de movimentação de código que consiste em movimentar a instrução de desvio n posições acima. Supondo n = 1 temos: 1. A := B; 2. if A = Q then go to 7 3. B := B -1; 4. Q := Q +1; 5. D := E; 6. E := F; 7. X := Q; Para fazer essas movimentações, o compilador deve levar em consideração as relações de dependência entre as instruções, de forma que a equivalência semântica do programa seja preservada. 15 Branch Folding Nesta técnica, cada instrução inclui o endereço da sua sucessora. Em tempo de execução as instruções deste processador são decodificadas e armazenadas em uma memória cache de instruções, em conjunto com o endereço da próxima instrução a ser executada. No caso de um comando de desvio incondicional, o endereço almejado fica armazenado na instrução que precede o comando de desvio, eliminando-se desta forma a necessidade de executar instruções de transferência de controle incondicional.

9 Um tratamento diferenciado é reservado para os comandos de desvio condicional. Como nos outros tipos de instruções, o endereço da sucessora do comando de desvio é armazenado no campo apropriado da instrução que antecede o comando de ramificação condicional. Compete ao compilador a tarefa de especificar qual das duas sucessoras do desvio terá seu endereço armazenado na instrução precedendo a transferência de controle. O compilador realiza esta tarefa, ou seja, especifica qual será a provável instrução sucessora empregando uma técnica de previsão estática. Assim ele seleciona o endereço com maior probabilidade de execução e o inclui na instrução anterior ao comando de desvio. 17 In-line As técnicas de previsão de desvios apresentam uma reduzida taxa de acertos quando do tratamento de instruções de retorno de funções, já que um procedimento pode ser chamado de diferentes pontos do programa e portanto, a técnica de predição precisaria armazenar longos padrões de ativações / retornos para aumentar a taxa de acerto. Este fato motivou o desenvolvimento de técnicas de otimização de código como a in-line, que consiste em substituir os procedimentos dos programas pelo código objeto correspondente nos locais onde os procedimentos são ativados.

10 Esta técnica reduz o custo das instruções de desvios condicionais existentes no comando for. Observe abaixo a tradução da estrutura for: for(cv = a; cv<=b; cv++) s; L2:... avalia limites a e b faz cv = a se cv > b, desvio condicional para L2 L1 código para execução de s Incrementa cv se cv < b, desvio condicional para L1 L2... Na seqüência, a e b são respectivamente os limites inferior e superior do for e cv é a variável de controle. 19 Loop Unrolling Para ilustrar esta técnica de desenrolamento, vamos considerar o trecho do programa a seguir: for (i=1; i<100;i++) c[i] = a[i] + b[i];... Vamos assumir que os registradores r 1... r 8 armazenam: r 1 : a variável de controle i (inicialmente com o valor do limite inferior do for) r 2 : o limite superior do for r 3... r 5 : os endereços iniciais dos vetores a, b e c respectivamente r 6... r 8 : os valores dos elementos a[i], b[i] e c[i]

11 O código objeto do trecho é: Loop: load r 6 (carrega a[i]) load r 7 (carrega b[i]) add r 8, r 6, r 7 (c[i] = a[i] + b[i]) sto r 8 (armazena c[i]) add r 1, r 1, 1 incrementa var. controle comp r 1, r 2 (i > 100)? bnez loop desvia para loop se i <= Loop Unrolling Desenrolando o loop duas vezes, ficamos com o seguinte código objeto: Loop load r 6 (carrega a[i]) load r 7 (carrega b[i]) add r 8, r 6, r 7 (c[i] = a[i] + b[i]) sto r 8 (armazena c[i]) load r 6 (carrega a[i+1]) load r 7 (carrega b[i+1]) add r 8, r 6, r 7 (c[i+1] = a[i+1] + b[i+1]) sto r 8 (armazena c[i+1]) add r 1, r 1, 2 incrementa var. controle comp r 1, r 2 (i > 100)? bnez loop desvia para loop se i <= 100 O loop desenrolado conta com 11 instruções enquanto que originalmente ele

12 Diferentemente das técnicas implementadas por software, estas técnicas atuam durante a execução do programa e são implementadas pela unidade de controle do processador. Existem dois tipos de técnicas implementadas por hardware: técnicas estáticas a previsão ocorre baseado em definições feitas em tempo de projeto de um novo processador; técnicas dinâmicas realizam dinamicamente as previsões de desvio baseado nas informações coletadas em tempo de execução. 23 Previsão Estática supor sempre mesma direção para o desvio desvio sempre ocorre desvio nunca ocorre O código da operação determina a previsão compilador define direção mais provável instrução de desvio contém bit de previsão, ligado / desligado pelo compilador início de laço ( ou desvio para frente ): desvio improvável final de laço ( ou desvio para trás ): desvio provável

13 A unidade de controle realiza a previsão de desvios dinamicamente. Usualmente, essas técnicas são mais eficientes do que as estáticas. Técnicas dinâmicas armazenam informações coletadas em tempo de execução das instruções de desvio e, quando o desvio for novamente executado, o mecanismo de previsão verifica o que ocorreu no passado mais recente e baseado nessa informação, prevê qual o resultado que será produzido pela instrução de desvio. As informações ficam armazenadas numa pequena tabela denominada Tabela de História dos Desvios (Branch History Table). 25 Previsão Dinâmica Porexemplo, o processadorpodeincluirumabht para armazenar informações relacionadas com as mais recentes execuções dos comandos de desvio. Os campos de cada entrada podem conter ou o endereço do desvio e o endereço da sucessora. O endereço da instrução é usada como chave para acesso à tabela. Se a instrução estiver armazenada no campo de endereço de desvio isto significa que o endereço no campo endereço da sucessora será utilizado para buscar a próxima instrução.

14 tabela look-up associativa endereço instrução endereço desvio bit de validade carga do endereço de desvio PC endereço fetch instrução 27 Predição dinâmica tabela look-up associativa armazena triplas endereços das instruções de desvio condicional mais recentemente executadas endereços de destino destes desvios bit de validade, indicando se desvio foi tomado na última execução quando instrução de desvio condicional é buscada na memória é feita comparação associativa na tabela, à procura do endereço desta instrução se endereço é encontrado e bit de validade está ligado, o endereço de desvio armazenado na tabela é usado ao final da execução da instrução, endereço efetivo de destino do desvio e bit de validade são atualizados na tabela tabela pode utilizar diversos mapeamentos e algoritmos de substituição

15 Essa técnica verifica o que ocorreu com as k mais recentes execuções de um desvio e realiza uma previsão do resultado que será produzido pela corrente execução do desvio. Os k mais recentes resultados de cada desvio ficam armazenados numa Tabela da História dos Desvios (BHT - Branch History Table) que é atualizada após a conclusão da instrução de desvio. Fisicamente, as entradas contendo a história dos desvios podem ser armazenadas num conjunto de registradores ou então numa memória cache no interior do processador bit predictors O esquema consiste em utilizar o resultado da última execução da instrução de desvio. Nesse caso, um bit seria suficiente para armazenar o resultado anterior da instrução de desvio. Se a previsão indicar que o desvio deve ser tomado e se o estágio de execução indicar o contrário, a tabela BHT é atualizada, as instruções nos estágios precedentes são descartadas e o estágio de busca inicia a transferência de instruções pertencentes ao fluxo apropriado. Se a instrução de desvio estiver sendo executada pela primeira vez, utiliza-se uma das duas técnicas estáticas apresentadas previamente e em seguida, inclui-se o desvio na BHT.

16 O autômato para esse mecanismo é muito simples e é mostrado na figura abaixo O número de bits de história (previsão) é um fator de extrema relevância na escolha do algoritmo de previsão. Acima foi mostrado um autômato para previsão com 1 bit de história. O maior problema em se usar esta técnica é quando se faz necessário prever o destino de desvios de controle do laços, e o laço é executado mais de uma vez (loops aninhados) bit Prediction Scheme Registra as últimas duas decisões do desvio. Altera a predição somente após duas previsões consecutivas erradas. Taken Predict taken Taken Predict not taken Not taken Taken Not taken Taken Predict taken Not taken Predict not taken Not taken

17 mecanismo com 2 bits de história registra o resultado das duas últimas execuções, e a próxima previsão é modificada apenas se as duas últimas previsões foram incorretas. Nos estados onde os dois bits coincidem, a previsão segue o resultado indicado por ambos. Nos estados onde os dois bits diferem, a previsão segue a indicação do bit que registra o estado mais antigo. 33 Exemplo: 2-bit Branch Prediction Nested loop: Loop1: Loop2: bne r1,r0,loop2 bne r2,r0,loop1 Execução do loop externo: 00 prediz NT; realizou T atualizado p/ 01 (predição errada) 01 prediz NT; realizou T atualizadop/ 10 (prediçãoerrada) 10 prediz T; realizou T atualizado p/ prediz T; realizou T

18 Execução do loop interno: 10 prediz T; realizou T atualizado p/ prediz T; realizou T atualizado p/ prediz T; realizou NT atualizado p/ 10 (predição errada) Taxas de previsões errôneas para o 2-bit predictors considerando 4096 entradas no buffer é de 1% a 18%. 35 Correlating or 2-level Predictors A previsão depende do contexto do desvio. Exemplo: if (a == 2) a = 0; if (b == 2) b = 0; if (a!= b) { } DSUBUI R3,R1,2 BNEZ R3,L1 DADD R1,R0,R0 L1:DSUBUI R3,R2,2 BNEZ R3,L2 DADD R2,R0,R0 L2: DSUBU R3,R1,R2 Se ambos desvios não são realizados então a==b==0 e o último desvio será realizado com certeza.

19 Uma técnica alternativa para previsão é a que emprega uma tabela contendo os alvos das instruções de desvios. Denominada BTB - Branch Target Buffer, essa tabela é uma evolução da BHT. Como anteriormente, a tabela BTB inclui campos para identificar a instrução de desvio e para armazenar a história das recentes execuções do comando de desvio. Adicionalmente, a BTB inclui um campo contendo informações sobre a instrução sucessora do desvio: geralmente o campo armazena o endereço efetivo da sucessora; em outras implementações, a instrução sucessora também. A BTB torna o processador mais eficiente do que aqueles que usam simplesmente uma BHT por causa do potencial oferecido pelas informações sobre a sucessora do desvio. 37 Previsão dinâmica em dois níveis A idéia de coletar dinamicamente dois níveis de história de desvios foi proposta por Yeh e Patt [YEH 91]. O primeiro nível armazena a história dos últimos K desvios encontrados. O segundo nível armazena o que aconteceu com as últimas j ocorrências de um padrão específico para os K desvios. O primeiro nível é denominado History Register Table e o segundo nível de Pattern Table. O endereço de um desvio é mapeado para acessar o primeiro nível assim como em uma BTB convencional. Após mapear a entrada correta, o registrador de história (Branch History Register) fornece o padrão de bits que irá determinar qual entrada será acessada no segundo nível. Ao acessar o segundo nível, o mecanismo dispõe então do bit de previsão que indicará o caminho a ser seguido pelo estágio de busca

20 39 Preditores híbridos e multi-híbridos Preditores híbridos incluem diversas técnicas, todas operando em paralelo, mas somente a técnica com maior probabilidade de acerto é a que fornece o resultado da predição para a unidade de busca de instruções. O preditor híbrido proposto por McFarling é formado por dois preditores simples que são controlados por um mecanismo que seleciona dinamicamente qual das duas predições será considerada. O preditor multi-híbrido emprega um número maior de componentes e, ao aumentar esse número, os autores verificam que previsões com maior índice de precisão foram obtidas.

21 [LEE84] LEE, J. K.; SMITH, A. J. "Branch Prediction Strategies and Branch Target Buffer Design", IEEE Computer, vol. 17, No 1, January 1984, pp [MCF93] S. McFarling, "Combining Branch Predictors", Technical Report TN-36, Digital Western Research Laboratory, June [HEN96] HENESSY, Jhon L.; PATTERSON, David, Computer Architecture: A Quantitative Approach. 2.ed. Palo Alto: Morgan Kaufmann, 1996 [UHT97] Uht, A.; Sindagi, V.; Somanathan, S.; Branch Effect Reduction Techniques IEEE Computer, May