MC722. Medidas. Instruções. Funções. Pilha. add $t0,$s1,$s2. slti rt,rs,const if (rs < const) rd=1; else rd=0;

Transcrição

1 Medidas CPU Time = instructions program T improved = MC722 clock cycles instruction T affected improvement factor + T unaffected CPU Time = # cycles cycle time = # cycles clock rate Instruções seconds clock cycle Tipo R: op rs rt rd shamt funct 6bits 5bits 5bits 5bits 5bits 6bits shamt = shift amount Exemplo: add $t0,$s1,$s2 0 $s1 $s2 $t0 0 add Tipo I: op rs rt const ou endereço 6bits 5bits 5bits 16 bits Tipo J: op endereço 6bits 26bits slt rd,rs,rt if (rs < rt) rd=1; else rd=0; slti rt,rs,const if (rs < const) rd=1; else rd=0; Funções Pilha chamada: volta: jal Label jr $ra empilhar: addi $sp, $sp, 4 #coisas sw $reg, 0($sp) desempilhar: lw $reg, 0($sp) addi $sp, $sp, 4 #coisas

2 Representação de oat X = ( 1) S (1 + frac) 2 exp bias S exp f rac bias single: 1bit 8bits 23bits 127 double: 1bit 11bits 52bits 1203 Outros comandos ixxx imediato uxxx unsigned XXX.s single float XXX.d double float c.yy.{s,d}: seta ou reseta o bit de comparação bc1t e bc1f : branch se o bit de comparação é TRUE ou FALSE Pipeline YY = eq,lt,le,... a pipeline do MIPS tem 5 estágios: IF: Instruction fetch from memory ID: Instruction decode and register read EX: Execute operation or calculate address MEM: Access memory WB: Write result to register Somente lw e sw passam por MEM XXX = add,sub,slt,... Hazards: Structure Hazard: um recurso necessário está ocupado Data Hazard: precisa esperar uma instrução anterior completar escrita/leitura de dados

3 Exemplo: add $s0, $t0, $t1 sub $t2, $s0, $t3 o valor de $s0 é calculado em add.ex, mas só é escrito no banco de registradores no início de add.wb e é lido no final de sub.id um valor incorreto A solução é chamada de Forwarding, a saída de EX é mandada diretamente para a entrada do EX da próxima instrução na instrução lw, o resultado só é obtido depois de MEM, portanto um stall ainda é necessário

4 Quando usar forwarding: quando uma instrução usa como origem o registrador destino da instrução anterior, nesse caso deve-se usar o registrador que está em EX/MEM ou se uma terceira instrução depende do registrador destino da primeira instrução, nesse caso deve-se usar o registrador que está em MEM/WB, pois o registrador de EX/MEM já está sujo com os valores da segunda instrução também é possível reordenar o código para evitar stalls Control Hazard: decidir a ação de controle depende da instrução anterior (branches) a próxima instrução a ser pega depende do resultado do branch pode-se adicionar hardware para antecipar a comparação dos registradores e computar o alvo do branch mais cedo no pipeline (ID), mas ainda é necessário um stall pipelines maiores não conseguem fazer isso tão cedo no pipeline, então usam branch prediction dependendo da previsão, o processador pega a instrução, se a previsão estava errada ele a troca por uma bolha

5 Exceções: quando ocorrem, é necessário salvar o PC da instrução que a disparou MIPS tem um registrador chamado Exception Program Counter (EPC) para isso também é necessário salvar o motivo do problema Ex.: 1bit: 0 para opcode não definido, 1 para overflow depois o processador deve pular para o endereço também é possível existir um vetor de handlers Ex.: C : opcode não definido, C : overflow, etc... os handlers podem corrigir o problema e usar o EPC para retornar ao programa ou terminar o programa e usar o EPC para reportar o erro quando ocorre uma exceção (overflow, por exemplo), o processador deve impedir a sobrescrita de valores válidos dos registradores semelhantemente a um erro na predição do branch, o processador deve inserir bolhas no pipeline e depois pular para o handler Instruction Level Parallelism (ILP) Estático: o compilador agrupa as instruções que serão rodadas juntas o compilador que detecta e evita hazards Dinâmico: a CPU examina o fluxo de instruções e escolhe a cada ciclo as instruções a serem executadas o compilador pode ajudar reordenando as instruções

6 a CPU deve resolver os hazards em tempo de execução uma CPU com ILP dinâmico tem várias unidades funcionais, uma para cada função (inteiro, floating point, load/store,...), e junto de cada uma existe um estação de reserva, onde ficam as instruções que ainda não podem ser executadas por dependência de outra instrução que ainda não foi executada as instruções são mandadas para as estações de reserva, e lá ficam até poderem ser executadas por causa de suas dependências Hierarquia de memória Static RAM (SRAM): memória em cache anexada à CPU, 0.5ns a 2.5ns de tempo de acesso Dynamic RAM (DRAM): memória principal, 50ns a 70ns de tempo de acesso Disco: 5ms a 20ms de tempo de acesso quando o processador precisa de um dado, verifica primeiro na cache, depois vai descendo conforme não achar a cache guarda o endereço do bloco na memória, junto com seu conteúdo na verdade, o endereço guardado são somente os bits de maior ordem, chamados tag a cache também guarda um bit de validade, 1 se o valor do bloco é válido, 0 caso contrário como a cache é muito menor que a memória, precisa ser mapeada de tal modo que, sabendo qual o endereço da memória desejado o processador sabe onde na cache deve procurar Cache diretamente mapeada: o endereço na cache é definido por (endereço do bloco na memória) módulo (número de blocos na cache) Exemplo: se a cache tem 1024(2 10 ) posições, cada linha da cache precisa ter bits: 1 bit de validade, 20 bits de tag, pois dos 32 bits do endereço representado 2 são byte offset, 10 são o index (indica qual linha da cache ficaria esse valor) e os 20 restantes são a tag e 32 bits para o conteúdo Quando o processador requer um acesso à memória, o hardware escolhe a linha da cache baseado nos bits de index do endereço requerido, depois compara os bits de tag com a tag daquela linha da cache, se a comparação der certo, o valor foi encontrado, e os bits de offset são usados para selecionar o byte correto

7 Exemplo: cache com 64 blocos, 16 bytes/bloco em qual bloco está mapeado o endereço 1200? o endereço é 1200/16 = 75 o número do bloco é 75 módulo 64 = 11 Write-Through: quando ocorre um hit de escrita, além de escrever na cache, escreve também na memória mas isso aumenta o tempo de escrita, portanto existe um buffer de escrita, que guarda os dados a serem escritos na memória, e só atrasa caso o buffer já esteja cheio Write-Back: em caso de hit de escrita, escreve somente no bloco na cache mas isso requer um bit para saber se cada bloco está sujo ou não e somente quando um bloco sujo é trocado na cache que é feita a escrita na memória Exemplo: 1 ciclo de barramento para transferência de endereço 15 ciclos a cada acesso na DRAM 1 ciclo para transferência de dados para um bloco de 4 palavras e DRAM de 1 palavra de largura a penalidade é de = 65 ciclos Performance: Memory stall cycles = Memory accesses Miss rate Miss penalty Program = Instructions Program Misses Miss penalty Instruction

8 Exemplo: dados: miss de instrução: 2% miss de dados: 4% penalidade por miss: 100 ciclos CPI base: 2 loads e stores são 36% das instruções então: miss por instrução: 0, = 2 miss de dados: 0, 36 0, = 1, 44 CPI atual: , 44 = 5, 44 Average Access Time: Average memory access time(amat) = Hit time + Miss rate Miss penalty Exemplo: CPU com clock de 1ns, tempo de hit de 1 ciclo, penalidade de miss de 20 ciclos e taxa de miss da I-Cache de 5% AMAT = 1 + 0, = 2ns, 2 ciclos por instrução Cache totalmente associativa: os blocos podem ir em qualquer posição custa mais caro pois é necessário procurar o bloco desejado em todas as posições da cache Cache associativa em n-vias: cada divisão possui n entradas o número do bloco desejado determina a divisão (número do bloco) módulo (número de divisões na cache) é necessário procurar o bloco desejado dentre os blocos de uma das divisões Substituição de blocos na cache: Least Recently Used (LRU): remove o bloco que está a mais tempo sem ser usado Random: remove aleatoriamente, melhor para caches com alta associatividade Memória Virtual: usa a memória pricipal como cache para o disco, e é gerenciada por hardware e pelo SO Página: equivalente a um bloco de cache

9 Page fault: equivalente a um miss de cache em caso de page fault é necessário buscar a página na memória física, e isso demora milhões de ciclos, portanto pode-se usar algoritmos em software para gerenciamento sem maior perda de performance existe um vetor de entradas de página, indexado pelo número da página virtual, e o conteúdo lá guardado é o endereço da informação no disco Translation Look-aside Buffer (TLB): usado para traduzir endereço virtual para endereço físico Motivo de Misses: Miss compulsório: miss gerado pelo primeiro acesso a um bloco Miss de capacidade: miss gerado quando a cache está cheia e um bloco precisou ser trocado e depois foi acessado Miss de conflito: miss gerado quando uma divisão da cache está cheia e um bloco precisa ser trocado e depois é acessado Trade-offs: mudança efeito na taxa de miss efeito negativo aumentar o tamanho da cache diminui miss de capacidade pode aumentar tempo de acesso aumentar associatividade diminui miss de conflito pode aumentar tempo de acesso aumentar tamanho do bloco diminui miss compulsório aumenta a penalidade do miss e para blocos muito grandes pode aumentar a taxa de miss devido a poluição Exemplo: dados: blocos de 4 palvras (16 bytes) cache de 16KB (1024 blocos) endereços de 32 bits bit de validade e dirty em cada bloco então: é necessário um offset de 4bits, pois cada bloco tem 4 palavras é necessário um index de 10bits, pois há 2 10 blocos o restante (18 bits) é tag I/O MTTF: Mean time to failure

10 MTTR: MTBF: Mean time to repair Mean time between failures MTBF = MTTF + MTTR Availability: MTTF MTTF + MTTR Custos do disco: delay da fila, caso outros acessos estejam pendentes seek: mover a cabeça de leitura latência de rotação transferência de dados overhead do controlador Exemplo: dados: setor de 512B rpm seek médio de 4ms taxa de transferência de 100MB/s overhead de controlador de 0.2ms disco idle (sem acessos pendentes) então: tempo médio de leitura: 4ms + 0, (=2ms) 60 tempo de seek 512B + 100MB/s (=0,005ms) + 0.2ms delay do controlador = 6.2ms 0,5 pois assume-se meia rotação e divide-se a rpm por 60 para obter o número de rotações por segundo tempo de transferência de um setor Barramentos:

11 Processador-Memória: pequeno, alta velocidade, design depende da organização da memória I/O: longo, permite multipla conexão, especificado para interoperabiidade, conectase ao barramento de processador-memória por um bridge Direct Memory Access (DMA): usado para transferência de e para a memória assincronamente, e quando termina gera uma interrupção para o SO saber se deu erro ou se terminou com sucesso para garantir coerência pode-se dar flush nos blocos da cache que serão usados pelo DMA, ou usar locais de memória que não vão para a cache para uso de I/O Redundant Array of Inexpensive Disks (RAID) usa vários disco pequenos ao invés de um disco grande paralelismo melhora a performance e vários discos provém redundância de armazenamento RAID 0: sem redundância separa os dados em listras nos discos melhora a performance RAID 1: espelhagem dos dados N + N discos escreve em ambos os discos em caso de falha, lê-se do disco espelhado RAID 2: código de correção de erro N + E discos separa os dados em N discos gera um código de correção de erro de E bits muito complexo e pouco usado RAID 3: N + 1 discos dados separados em N discos a nível de byte disco redundante guarda a paridade para ler, lê-se todos os discos para escrever, cria a nova paridade e atualiza todos os discos em caso de falha, usa a paridade para reconstruir os dados perdidos também não muito usado RAID 4: N + 1 discos dados separados em N discos a nível de blocos disco redundante guarda a paridade para ler, lê-se somente o disco com o bloco desejado

12 para escrever, lê o disco com o bloco modificado e o disco de paridade, depois calcula-se a nova paridade e atualiza os 2 discos em caso de falha, usa o disco de paridade para reconstruir os dados perdiso RAID 5: N + 1 discos semelhante a RAID 4, mas o bloco de paridade está distribuído entre os discos evita o gargalo do disco de paridade RAID 6: redundância P + Q N + 2 discos semelhante a RAID 5, mas com 2 conjuntos de paridade maior tolerância a falha através de mais redundância

13 Exemplo: dados: leituras de disco de 64KB cada operação de leitura requer 200k instruções de usuário e 100k instruções de SO 8 CPUS, cada uma com 10 9 instruções por segundo Front side bus com pico de 10,6GB por segundo (liga o processador e as memórias) (uso real de 25% desse valor) DRAM de 5,336GB por segundo barramento de PCI-E de 8 250MB por segundo (2GB por segundo) discos com rpm, tempo médio de seek de 2.9ms e taxa de transferência de 112MB por segundo então, qual a taxa de I/O para leituras aleatórias e leituras sequenciais? para leituras aleatórias: tempo do disco = seek + latência + transferência = 2.9ms + 4ms + 64KB = 3,3 ms MB/s 1 portanto, 303 ( ) operações por segundo por disco, e 2424 operações 3 3, 3 10 por segundo para os 8 discos para leituras sequenciais: tempo do disco = 112MB/s 64KB = 1750 operações por segundo por disco portanto operações por segundo para os 8 discos como o disco é sempre o gargalo, não é necessário calcular os outros valores