Resumo das aulas anteriores

Transcrição

1 Resumo p. 1 Resumo das aulas anteriores Luís Nogueira luis@dei.isep.ipp.pt Departamento Engenharia Informática Instituto Superior de Engenharia do Porto

2 Resumo p. 2 Instruction Set Architecture Hardware controlado através de instruções Conjunto de instruções define arquitectura Interface entre hardware e software Exemplos: MIPS, SPARC, PA-RISC, ix86, Alpha Balanço delicado N o de instruções fornecidas Formato das instruções N o de ciclos de relógio por instrução Velocidade do ciclo de relógio 2 tipos de abordagens Complex Instruction Set Computer (CISC) Reduced Instruction Set Computer (RISC)

3 Resumo p. 3 MIPS Simplicidade e regularidade Todas as instruções possuem o mesmo tamanho (32 bits) Possui 32 registos disponíveis Instruções aritméticas exigem sempre 3 registos Só duas instruções acedem à memória (lw,sw) Todas as instruções são convertidas em 1 de 3 formatos Formato R, I ou J Mantendo posições dos campos dos registos

4 Resumo p. 4 Desenho do processador ISA tem enorme impacto no desenho do processador ularidade e simplicidade do MIPS facilita desenho Que componentes vamos precisar? Memória de instruções para armazenar o programa istos para armazenar valores ALU para operação artiméticas/lógicas Incrementador para avançar PC Memória de dados para armazenar estruturas de dados

5 Resumo p. 5 Desenho do processador Como executar uma instrução? Obter instrução de 32 bits apontada por PC Ler 1 ou 2 registos, usando campos das instruções sempre nas mesmas posições Próximos passos dependem da instrução em causa Mas em MIPS são muito semelhantes! Todas usam a ALU depois de lerem registos Aritméticas e lógicas por razões óbvias Acesso à memória para calcular endereço (base + deslocamento) Salto condicional para comparar valores dos registos

6 Resumo p. 6 Desenho do processador Depois de usar a ALU diferem um pouco lw lê conteúdo da memória no endereço calculado e escreve no registo destino sw escreve valor do registo no endereço calculado Aritméticas precisam escrever resultado no registo destino Salto condicional precisa determinar se salta ou não Nesse caso temos de conseguir Decidir quais os componentes a usar Controlar o funcionamento desses componentes Como? Usando sinais de controlo que dependem do tipo de instrução

7 Resumo p. 7 Sinais de controlo Controlar funcionamento dos componentes ALU pode realizar uma de várias instruções Instrução pode ler ou escrever na memória Instrução pode escrever no registo Seleccionar input (em conjunto com multiplexador) PC pode avançar para a próxima instrução ou saltar istos actualizados nas operações aritméticas/lógicas ou lw ALU recebe endereço ou registo como 2 o argumento isto destino diferente nos formatos R e I

8 Resumo p. 8 Arquitectura do processador 0 4 Add Add ALU result M u x 1 Instruction [31 26] Control Dst Branch MemRead Memto ALUOp MemWrite ALUSrc Write Shift left 2 PC Read address Instruction [25 21] Read register 1 Read Instruction [20 16] data 1 Read register 2 Zero Instruction 0 [31 0] ALU M Read ALU Write 0 data 2 result Instruction u Instruction [15 11] x register M memory u 1 x Write 1 data isters Address Write data Read data Data memory 1 M u x 0 Instruction [15 0] 16 Sign 32 extend ALU control Instruction [5 0]

9 Resumo p. 9 Melhorar performance com pipelining Objectivo Melhorar performance global sem diminuir tempo de execução da instrução Como conseguir? Dividir execução da instrução em fases Ciclo de relógio menor Tempo de execução de uma fase em vez de instrução completa Todas as instruções demoram mesmo número de ciclos Sobrepor processamento de várias instruções em fases distintas

10 Resumo p. 10 Divisão da instrução em fases Instruction Fetch instrução é transferida da memória Instruction Decode tipo e operandos são determinados Execute operação executada/endereço calculado Memory Access acesso a memória em lw/sw Write Back resultado escrito em registo Time add $s0, $t0, $t1 IF ID EX MEM WB

11 Resumo p. 11 Sobreposição de execução Program execution order (in instructions) Time (in clock cycles) CC 1 CC 2 CC 3 CC 4 CC 5 CC 6 CC7 lw $1, 100($0) IM ALU DM lw $2, 200($0) IM ALU DM lw $3, 300($0) IM ALU DM

12 Resumo p. 12 Ciclo único vs Pipelining Program execution Time order (in instructions) lw $1, 100($0) lw $2, 200($0) lw $3, 300($0) Instruction fetch ALU 800 ps Data access Instruction fetch ALU 800 ps Data access Instruction fetch 800 ps Program execution Time order (in instructions) lw $1, 100($0) lw $2, 200($0) lw $3, 300($0) Instruction fetch 200 ps Instruction fetch 200 ps ALU Instruction fetch Data access ALU Data access ALU Data access 200 ps 200 ps 200 ps 200 ps 200 ps

13 Resumo p. 13 Implementação de pipelining No mesmo ciclo de relógio Instruções em fases distintas Partilham fluxo de informação Necessário armazenar informação intermédia Adicionar registos entre estágios do pipeline IF/ID informação da instrução que passa de IF para ID ID/EX informação da instrução que passa de ID para EX EX/MEM informação da instrução que passa de EX para MEM MEM/WB informação da instrução que passa de MEM para WB

14 Resumo p. 14 Arquitectura do processador com pipelining PCSrc ID/EX WB EX/MEM Control M WB MEM/WB IF/ID EX M WB Add 0 Mu x 1 PC 4 Address Instruction memory Instruction Read register 1 Read register 2 isters Write register Write data rite W Read data 1 Read data 2 Shift left 2 0 Mu x 1 Add Add result ALUSrc Zero ALU ALU result Branch Address MemWrite Data memory Read data Memto 0 Mu x 1 Write data Instruction [15 0] 16 Sign 32 6 extend ALU control MemRead Instruction [20 16] 0 Mu ALUOp Instruction [15 11] x 1 Dst

15 Resumo p. 15 Problemas em pipelining Objectivo manter pipeline cheio (IPC = 1) No entanto Dependências de dados entre instruções sequenciais Acesso à memória tem latência elevada (lw,sw) Instruções de salto alteram fluxo de execução Próxima instrução não pode executar no próximo ciclo de relógio Como optimizar funcionamento do pipeline? Melhorando compilador Adicionando hardware ao pipeline

16 Resumo p. 16 Dependências entre instruções Time (in clock cycles) Value of CC 1 CC 2 CC 3 CC 4 CC 5 CC 6 CC 7 CC 8 CC 9 register $2: / Program execution order (in instructions) sub $2, $1, $3 IM DM and $12, $2, $5 IM DM or $13, $6, $2 IM DM add $14, $2, $2 IM DM sw $15, 100($2) IM DM

17 Resumo p. 17 Forwarding - Propagação de valores Time (in clock cycles) CC 1 CC 2 CC 3 CC 4 CC 5 CC 6 CC 7 CC 8 CC 9 Value of register $2: / Value of EX/MEM: X X X 20 X X X X X Value of MEM/WB: X X X X 20 X X X X Program execution order (in instructions) sub $2, $1, $3 IM DM and $12, $2, $5 IM DM or $13, $6, $2 IM DM add $14, $2, $2 IM DM sw $15, 100($2) IM DM

18 Resumo p. 18 Latência no acesso à memória Time (in clock cycles) CC 1 CC 2 CC 3 CC 4 CC 5 CC 6 CC 7 CC 8 CC 9 Program execution order (in instructions) lw $2, 20($1) IM DM and $4, $2, $5 IM DM or $8, $2, $6 IM DM add $9, $4, $2 IM DM slt $1, $6, $7 IM DM

19 Resumo p. 19 Latência no acesso à memória Soluções Compilador Reordena instruções Instrução seguinte a lw não depende desta Hardware Detectar dependência em run time Inserir estados de espera no pipeline

20 Resumo p. 20 Estados de espera Program Time (in clock cycles) execution order (in instructions) CC 1 CC 2 CC 3 CC 4 CC 5 CC 6 CC 7 CC 8 CC 9 CC 10 lw $2, 20($1) IM DM and $4, $2, $5 IM DM or $8, $2, $6 add $9, $4, $2 IM IM DM bubble IM DM slt $1, $6, $7 IM DM

21 Resumo p. 21 Instruções de salto Time (in clock cycles) CC 1 CC 2 CC 3 CC 4 CC 5 CC 6 CC 7 CC 8 CC 9 Program execution order (in instructions) 40 beq $1, $3, 28 IM DM 44 and $12, $2, $5 IM DM 48 or $13, $6, $2 IM DM 52 add $14, $2, $2 IM DM 72 lw $4, 50($7) IM DM

22 Resumo p. 22 Instruções de salto - Soluções Assumir que salto não é efectuado Execução sequencial Se salto for efectuado descartar instruções em IF, ID, EX Reduzir latência da decisão de salto Antecipar decisão para ID Exige alterações do hardware Branch delay slot Compilador reordena instruções Coloca instruções que não dependem do salto até ser conhecida decisão

23 Resumo p. 23 Instruções de salto - Soluções Branch predication Eliminar saltos condicionais com lógica de predicados Previsão dinâmica de saltos Prever resultado do salto baseado na sua história Execução especulativa Executar instruções sequencialmente com base na previsão do salto Exige detecção do resultado da previsão Método para descartar efeitos de instruções que não deviam ter sido executadas (má previsão)

24 Resumo p. 24 Como melhorar a performance? Equação de performance tempo CPU = número de instruções IPC * frequência relógio Alternativas Diminuir número de instruções do programa Aumentar frequência de relógio Aumentar número de instruções executadas por ciclo Explorando paralelismo ao nível das instruções

25 Resumo p. 25 Superpipelining Pipeline mais profunda e maior frequência interna dos estágios Exige maior velocidade da memória Aumentam problemas originados por Dependências entre instruções Latência no acesso à memória Instruções de salto Técnica limitada pela velocidade dos circuitos Necessidade de armazenar valores intermédios nos registos do pipeline Muito usado em unidades funcionais especializadas

26 Resumo p. 26 Arquitecturas multiple-issue Replicar componentes funcionais Executar instruções em paralelo no mesmo ciclo de relógio Recorrem à execução especulativa Exige bom previsor de saltos Má previsão perda de performance Duas abordagens para a distribuição das instruções Static multiple-issue Compilador Dynamic multiple-issue Hardware

27 Resumo p. 27 Dynamic multiple-issue Instruction Fetch and Issue Unit Obtém, descodifica e distribui instruções Processadores CISC actuais descodificam instruções complexas em conjunto de instruções simples Várias unidades funcionais Operandos armazenados em reservation station Execução fora de ordem Assim que todos os operandos são conhecidos Forwarding para unidades que esperam valores Envio de resultados para commit unit

28 Resumo p. 28 Dynamic multiple-issue Commit Unit ister renaming cria registos temporários Re-order buffer preserva semântica original do programa Instrução de salto foi bem prevista Validação (commit) dos resultados istos temporários registos do CPU Instrução de salto mal prevista Resultados descartados

29 Resumo p. 29 Dynamic multiple-issue Instruction fetch and decode unit In-order issue Reservation station Reservation station... Reservation station Reservation station Functional units Integer Integer... Floating point Load/ Store Out-of-order execute Commit unit In-order commit

30 Resumo p. 30 Static multiple-issue Transferir para o compilador Análise de dependências Distribuição das instruções pela unidades funcionais Pacotes de n instruções directamente enviado para as unidades funcionais Very Large Instruction Word (VLIW) Sem dependências entre instruções Pacote pode ter slots vazios Reduz substancialmente a complexidade do hardware Exige compilador poderoso Transmeta adiciona camada de software no Crusoe

31 Resumo p. 31 Very Large Instruction Word Exemplo de pacote com 8 instruções 2 ftp + 2 int + 2 lw/sw + 1 salto Pacote sem dependências executado em paralelo

32 Resumo p. 32 Fraco paralelismo dos progamas Exploração do paralelismo através de execução super-escalar é limitada Maioria dos programas não possuem paralelismo suficiente Distribuição dinâmica e optimização do compilador em conjunto Em média apenas 2 instruções por ciclo em programas normais Resultado Unidades funcionais sub-aproveitadas Performance máxima do CPU não é atingida

33 Resumo p. 33 Symmetric Multiprocessing (SMP) Executar cada processo/thread num CPU diferente Foco: processadores multi-core Escalonamento do S.O. divide processos pelos CPUs Maior tempo de execução disponível para os processos Menor tempo de espera pelo time slice Continuam a existir recursos comuns Acessos resolvidos por exclusão mútua SMP não optimiza forma como os programas usam o hardware de cada CPU Multiplica tempo de execução para os processos Assim como o desperdício de hardware por ciclo de relógio!

34 Symmetric Multiprocessing (SMP) Resumo p. 34

35 Resumo p. 35 Simultaneous Multithreading (SMT) Explorar paralelismo dentro dos processos Maximizar utilização do CPU Apenas um CPU físico Fornece dois ou mais processadores lógicos ao S.O. Exige duplicação apenas dos componentes que armazenam contexto dos processos Pequena parte do hardware do CPU Unidades funcionais partilhadas pelas threads Processador executa várias threads simultaneamente Idealmente resultando na maximização da utilização das unidades funcionais Aumentando IPC aumenta performance

36 Simultaneous Multithreading (SMT) Resumo p. 36

37 Resumo p. 37 Arquitecturas Vectoriais Executar instrução sobre conjunto de dados Explora paralelismo ao nível dos dados istos e unidades vectoriais especializadas Vectores mantidos em registos especiais no CPU Instruções aplicadas sobre registos vectoriais Aumenta a performance Aplicações onde paralelismo de dados é fácil de obter SIMD usado em ISAs especializadas MMX/SSE, 3DNow!, AltiVec

38 Resumo p. 38 Single Instruction Multiple Data (SIMD) SISD vs SIMD

39 Resumo p. 39 Hierarquia de memória Problema Velocidade do CPU muito superior à da memória Consequência Acessos à memória provocam perda de performance Usar memória com mesma velocidade do CPU Técnica e economicamente impraticável Custo por bit de hardware rápido é muito elevado Memórias rápidas possuem pequena capacidade Como disponibilizar grande capacidade a elevada velocidade?

40 Resumo p. 40 Hierarquia de memória Current Speed CPU Size Cost ($/bit) Technology Fastest Memory Smallest Highest SRAM Memory DRAM Slowest Memory Biggest Lowest Magnetic Disk

41 Resumo p. 41 Hierarquia de memória - Onde colocar um bloco? Nas caches existem 3 esquemas Direct-mapped Fully associative n-way Set associative Vantagem em aumentar grau de associatividade Diminui miss rate, diminuindo colisões entre blocos Desvantagens em aumentar grau de associatividade Maior custo e tempo de pesquisa Colocação de páginas em memória é fully associative Elevada penalização no acesso ao disco

42 Resumo p. 42 Hierarquia de memória - Como pesquisar um bloco? Em direct-mapped um bloco só pode estar numa entrada N-way Set associative e Fully associative Bloco pode estar numa de n entradas Para pesquisa ser eficiente tem de ser feita em paralelo Maior custo do hardware Elevada latência do disco exige fully associative em memória S.O. pode usar algoritmos de pesquisa mais eficientes Memória virtual usa tabela de páginas Exige acesso extra à memória Para ser eficiente exige TLB

43 Resumo p. 43 Hierarquia de memória - Qual o bloco a substituir? Duas técnicas principais em caches associativas Aleatoriamente Bloco seleccionado aleatoriamente entre os possíveis candidatos Least Recently Used (LRU) Bloco substituído é o que não é usado há mais tempo Na prática LRU é muito custoso com grande associatividade Opta-se por LRU aproximado Memória virtual usa sempre LRU aproximado Reference bit

44 Resumo p. 44 Hierarquia de memória - Como lidar com escritas? Duas técnicas principais Write-through Bloco escrito na cache e na memória Cache misses nunca requerem escrita em memória Write-back Bloco apenas escrito na cache numa primeira fase Só é escrito em memória quando tiver que ser substituído Múltiplas escritas na cache uma escrita em memória Cache misses podem exigir escrita em memória Memória virtual usa sempre write-back Elevada latência do disco

45 Resumo p. 45 Computação paralela Criar computadores poderosos ligando vários CPUs Custos de desenvolvimento de novos processadores Limites da tecnologia de semicondutores Diminuir tempo de execução dos programas Aumentar throughput Tratar problemas mais complexos Genética, farmacologia, física,... Sistemas robustos e tolerantes a falhas

46 Resumo p. 46 Questões Como partilhar dados pelos processadores? Memória partilhada Passagem de mensagens Como coordenar os diversos processadores? Sincronização (semáforos) Primitivas send/receive Protocolos do S.O. Como ligar os diversos processadores? Bus único Rede de interconexão

47 Resumo p. 47 Symmetric Multiprocessors (SMPs) Espaço de endereçamento físico global Fisicamente partilhado através de um bus único Latência no acesso à memória independente do processador Processadores comunicam através de variáveis partilhadas em memória Sincronização através de semáforos Modelo de programação atractivo Cada processador utiliza uma cache individual Diminuir tráfego no bus partilhado Mantém cópia de dados partilhados em memória

48 Resumo p. 48 Symmetric Multiprocessors (SMPs) Processor Processor Processor Cache Cache Cache Single bus Memory I/O

49 Resumo p. 49 Problema de coerência das caches Tempo Evento Cache CPU A Cache CPU B Memória CPU A lê X CPU B lê X CPU A escreve 0 em X Réplicas nas caches privadas têm de ser coerentes Necessário garantir Escritas em memória são visíveis a todos os processadores (write propagation) Ordem das escritas é a mesma para todos os processadores (write serialization)

50 Resumo p. 50 Snooping Controlador da cache monitoriza transacções que passam no bus Todas as transacções são visíveis a todos os controladores Todos os controladores veêm transacções pela mesma ordem Controladores actuam sobre blocos locais quando necessário Write-update Write-invalidade Etiquetas dos blocos em cache são duplicadas Evitar interferências quando CPU acede à cache Controlador acede a etiquetas duplicadas

51 Resumo p. 51 Snooping Processor Processor Processor Snoop tag Cache tag and data Snoop tag Cache tag and data Snoop tag Cache tag and data Single bus Memory I/O

52 Resumo p. 52 Processadores ligados por rede de interconecção Cada processador possui memória e caches privadas Processadores ligados por rede de interconecção Especializada e com diversas topologias Relativamente à memória Distribuída Memória fisicamente distribuída pelos processadores Virtualmente partilhada Memória fisicamente distribuída mas logicamente partilhada

53 Resumo p. 53 Processadores ligados por rede de interconecção Processor Processor Processor Cache Cache Cache Memory Memory Memory Network

54 Resumo p. 54 Arquitecturas de memória distribuída Memória fisicamente distribuída Processador apenas endereça memória privada Exige distribuição de tarefas Distribuir explicitamente dados pelos n processadores Agrupar resultados Comunicação entre processadores é explícita Enviar mensagem para partilhar dados Receber mensagem para aceitar dados enviados

55 Resumo p. 55 Arquitecturas de memória virtualmente partilhada Memória fisicamente distribuída mas logicamente partilhada Camada de software simula espaço endereçamento único Conceito semelhante a memória virtual em uniprocessador Tabela de páginas indica se página local ou remota Referências remotas são transformadas em mensagens Performance muito dependente da localidade das referências Miss penalty envolve mensagem pela rede Largura de banda gasta com transferência de páginas

56 Resumo p. 56 Coerência das caches em memória distribuída Espaço de endereçamento único coloca novamente o problema Cópias do mesmo endereço em caches distintas Snooping não resolve problema Não existe um bus partilhado onde são propagadas todas as referências à memória Natureza distribuída do protocolo não é escalonável a um grande n o de processadores Exige comunicação com todas as caches num cache miss Sem coerência das caches Apenas dados privados podem estar na cache Blocos partilhados são marcados como uncacheable

57 Resumo p. 57 Protocolos de coerência baseados em directórios Directório central mantém informação dos blocos em cache Que caches que possuem cópias do bloco Estado do bloco Processador comunica alteração de bloco na cache ao directório Directório invalida ou actualiza cópias Não é necessário broadcast! Transições entre estados geradas por mensagens explícitas Geradas por eventos em snooping

58 Resumo p. 58 Distribuição de directórios Elevada escalabilidade com distribuição de directórios Cada directório monitoriza caches que referenciam endereços físicos da porção de memória que controla Directórios distribuídos mantêm característica essencial Informação sobre um dado bloco está apenas num único directório conhecido Bits mais significativos usados como etiqueta

59 Distribuição de directórios Resumo p. 59

60 Resumo p. 60 Topologias das redes de interconecção Redes estáticas Ligações entre CPUs são fixas Mensagens seguem rotas bem definidas Redes dinâmicas Usar switches nas ligações entre CPUs Caminhos para as mensagens encontrados dinâmicamente Características Largura de banda Latência Custo N o máximo de hops entre CPUs Conectividade