Desempenho de Multicores

Transcrição

1 Everyone knows Amdahl s Law but quickly forgets it Thomas Puzak, IBM, 2007 UFPR-CI,CI desempenho de multicores Desempenho de Multicores Proposta: Avaliar modelo simples de desempenho, baseado na Lei de Amdahl sob a nova Lei de Moore: dobrar paralelismo a cada dois anos modelo simples indica tendências e carências Conclusões: ) cores individuais necessitam bom desempenho contraintuitivo 2) sistemas assimétricos ou + cores maiores 3) sistemas dinâmicos alocação dinâmica de HW UFPR-CI,CI desempenho de multicores 2 Lei de Amdahl (i) Premissa: modelo simples de software argumento de limite fração f do tempo de execução é perfeitamente paralelizável sem custo adicional para (i) escalonamento (ii) comunicação (iii) sincronização fração f é completamente serial tempo de execução em core: ( f)/ + f/ = tempo de execução em n cores: ( f)/ + f/n UFPR-CI,CI desempenho de multicores 3

2 Lei de Amdahl (ii) premissas: G é cota superior fração paralela f infinitamente paralelizável, sem custos adicionais fração serial ( f) é totalmente sequencial corolários: f pequeno não compensa paralelizar n, G ( f) G(f,n) = T original T melhorado = 6 2 f=0999 f=099 f=0975 f=09 f=05 f + f n 2 6 # cores UFPR-CI,CI desempenho de multicores 39 6 PP é eficaz quando: speedup > costup speedup(p) = perf(p) perf() = /time(p) /time() = time() time(p) Ganho linear quando speedup(p) = p costup(p) = cost(p) cost() Processamento Paralelo é eficaz [maior produção] sempre que speedup(p) > costup(p) Wood & Hill, Cost-Effective Parallel Computing, Computer, fev95 UFPR-CI,CI desempenho de multicores 5 Lei de Amdahl na Era dos Multicore Idéia: estender Lei de Amdahl para acomodar três tipos de projetos de multicores (MCs): MC simétrico cores idênticos 6 x BCE x BCEs MC assimétrico cores distintos 2 x BCE + x BCEs MC dinâmico recursos alocados dinamicamente à fração serial Hill & Marty, Amdahl s Law in the Multicore Era, IEEE Computer, jul0 UFPR-CI,CI desempenho de multicores 6

3 Premissas embutidas no modelo modelo ignora caches, barramentos, controladores de memória e supõe que estes custos são constantes para as três organizações CI contém n basic core equivalents (BCEs) # recursos fixo BCE implementa um core básico (baseline) área, potência arquiteto consegue realocar recursos dos BCEs para implementar um core de maior desempenho que o core básico desempenho do core com BCE é ; (perf() = ) arquiteto pode dispender recursos de para obter desempenho sequencial perf(r) se perf(r)> r, րbces/core melhora desempenho seq e // se perf(r)< r, րbces/core melhora desempenho seq mas piora desempenho // modelo supõe que perf(r) = r LGrosh: x BCEs 2x perf UFPR-CI,CI desempenho de multicores 7 Lei de Amdahl MC simétrico (i) Lei de Amdahl diz que ganho cra core com -BCE depende (i) da fração paralela f (ii) do total de recursos em BCEs: n (iii)dos recursos para melhorar o desempenho de cada core r Executa sequencialmente num core com perf(r): ( f)/perf(r) e usa todos n/r cores em paralelo com desempenho perf(r) n/r: f/[perf(r) n/r] G(f,n,r) simétrico = f perf(r) + f r perf(r) n G é uma cota superior perf(r)= r UFPR-CI,CI desempenho de multicores Lei de Amdahl MC simétrico (ii) 6 f=09 cores, sp=67 x 6 cores básicos cores cores 2 cores core gde 2 6 G(f,n,r) simétrico = / [ f perf(r) + f r perf(r) n UFPR-CI,CI desempenho de multicores 9 ]

4 Lei de Amdahl MC simétrico, r = 6 6 cores, sp=67 x f=0999 f=099 f=0975 f=09 f=05 2 cores cores 2 cores core 2 6 f=09: G=67 com cores de 2 BCEs UFPR-CI,CI desempenho de multicores 0 Lei de Amdahl MC simétrico, r = 2 f=0999 f=099 f=0975 f=09 f= f=09: G=27 com 5 cores de 30 BCEs f=0975: G=5 com 365 cores de 7 BCEs f=099: G=0 com 53 cores de 3 BCEs UFPR-CI,CI desempenho de multicores Lei de Amdahl MC simétrico, r = f=0999 f=099 f=0975 f=09 f= f=09: G= 533 com 9 cores de 3 BCEs f=0975: G=025 com 39 cores de 26 BCEs f=099: G=6 com 02 cores de 0 BCEs UFPR-CI,CI desempenho de multicores 2

5 Lei de Amdahl MC simétrico, conclusões ) ganhos significativos somente se f encontrar paralelismo é importante sistema é eficaz sempre que speedup > costup f=0999 f=099 f=0975 f=09 f=05 2) usar BCE/core pode ser ótimo, mesmo se perf(r)= r deve-se melhorar desempenho dos cores, mesmo se for caro 3) em CIs mais densos, cores tendem a ser maiores deve-se projetar cores mais poderosos r ր, maxima UFPR-CI,CI desempenho de multicores 3 Terceira Lei de Moore? Lei de Moore dos Tecnologistas dobra # transistores/ci a cada dois anos não está diminuindo, nem parou Lei de Moore dos Microarquitetos mono-core dobra desempenho por core a cada dois anos diminuiu e/ou parou em 2000 Lei de Moore dos Multicores dobra # cores/ci a cada dois anos + dobra paralelismo nos programas a cada dois anos + ajudado por suporte à paralelismo na arquitetura = dobra desempenho por CI a cada dois anos iniciou em 2005 Software deve produzir ganhos de desempenho ao invés de consumir UFPR-CI,CI desempenho de multicores Lei de Amdahl MC assimétrico (i) Cada CI limitado em n BCEs, para todos cores um core com deixa n r BCES para os demais usa n para n r cores básicos CI com + n r cores para um CI com n = 6 BCEs MC simétrico cores idênticos x BCEs MC assimétrico cores distintos 2 x BCE + x BCEs UFPR-CI,CI desempenho de multicores 5

6 Lei de Amdahl MC assimétrico (ii) Lei de Amdahl diz que ganho cra core com -BCE depende da fração paralela f, dos recursos em BCEs n, dos recursos para melhorar o desempenho de um core com n r cores básicos executam em paralelo com core grande Programa executa fração serial num core com e perf(r) e fração paralela com n r cores com desempenho perf() = G(f,n,r) assim = f perf(r) + f r perf(r)+(n r) G é uma cota superior perf(r)= r UFPR-CI,CI desempenho de multicores 6 Lei de Amdahl MC assimétrico (iii) + n r cores: core c/ + n r cores bás 6x x2 + x x + 2x x + x x6 6 x 53 cores, sp=9 f=09 aprox contínua: x9 + 7x, etc 6 cores x2+x x+2x x+x x6 2 6 [ f G(f,n,r) assim = / perf(r) + f r perf(r) + (n r) UFPR-CI,CI desempenho de multicores 7 ] Lei de Amdahl MC assimétrico, r = 6 6 x 53 cores, sp=9 f=0999 f=099 f=0975 f=09 f=05 2 x2+x x+2x x+x x6 2 6 f=09: G=9 com core de 53 BCEs + 07 cores de BCE UFPR-CI,CI desempenho de multicores

7 Lei de Amdahl MC assimétrico, r = 2 f=0999 f=099 f=0975 f=09 f= f=09: G=656 com core de 20 BCEs + 36 cores de BCE f=0975: G=25 com core de 66 BCEs + 90 cores de BCE UFPR-CI,CI desempenho de multicores 9 Lei de Amdahl MC assimétrico, r = f=0999 f=099 f=0975 f=09 f= f=09: G=65 com core de 563 BCEs + 6 cores de BCE f=0975: G=3 com core de 35 BCEs cores de BCE UFPR-CI,CI desempenho de multicores 20 Lei de Amdahl MC assimétrico, conclusões ) ganhos maiores que com MCs simétricos investir em MC assimétricos é uma boa idéia especialmente tratar overheads de escalonamento f=0999 f=099 f=0975 f=09 f=05 5) em CIs mais densos, ganhos são maiores e o core grande é relativamente mais potente deve-se melhorar desempenho da fração serial mesmo que sejam usados muitos recursos r ր, maxima UFPR-CI,CI desempenho de multicores 2

8 Lei de Amdahl MC dinâmico (i) Combinar num core durante a fração serial empregar n cores na fração paralela Na fração serial f um core com executa com perf(r) e usa todos os n cores em paralelo com n perf() = n G(f,n,r) dinâmico = f perf(r) + f n G é uma cota superior perf(r)= r UFPR-CI,CI desempenho de multicores 22 Lei de Amdahl MC dinâmico (ii) 6 f=09 core, sp=2, x core com na fase sequencial 2 6 [ f G(f,n,r) assim = / perf(r) + f ] n UFPR-CI,CI desempenho de multicores 23 Lei de Amdahl MC dinâmico, r = core, sp=2, x f=0999 f=099 f=0975 f=09 f=05 f=09: G=2 com core de 6 BCEs, 0% do tempo f=0975: G=9 com core de 6 BCEs, 25% do tempo UFPR-CI,CI desempenho de multicores 2

9 Lei de Amdahl MC dinâmico, r = 2 f=0999 f=099 f=0975 f=09 f= f=09: G=02 com core de BCEs, 0% do tempo f=0975: G=6 com core de BCEs, 25% do tempo UFPR-CI,CI desempenho de multicores 25 Lei de Amdahl MC dinâmico, r = f=0999 f=099 f=0975 f=09 f= f=09: G=250 com core de 02 BCEs, 0% do tempo f=0975: G=577 com core de 02 BCEs, 25% do tempo UFPR-CI,CI desempenho de multicores 26 Lei de Amdahl MC dinâmico, conclusões (i) Pode ser impraticável usar n BCEs na fração serial contudo, quanto mais recursos alocados à fração serial, potencialmente maior o ganho de desempenho 2 6 dinâmico assimeétrico simétrico dinâmico assimétrico simétrico para f = 0975 f = 09 MC dinâmico com 37 BCEs 76 BCEs é melhor que MC assimétrico com 66 BCEs BCEs UFPR-CI,CI desempenho de multicores 27

10 Lei de Amdahl MC dinâmico, conclusões (ii) 6) MC dinâmicos tem ganhos nunca piores que MC assimétricos para mesma função perf(r) 2 isso depende da premissa de que todos os recursos podem ser usados na execução serial e na paralela 6 f=0999 f=099 f=0975 f=09 f= investir em métodos que aproximem o comportamento dinâmico thread-level speculation, helper threads métodos podem parecer ineficientes sob Lei de Amdahl, mas sw exibe (muitas) fases com paralelismo N UFPR-CI,CI desempenho de multicores 2 O lado do software Como fazer para: escalonar computação quando usar o core grande/realocar gerenciar localidade mover código/dados anula ganhos sincronizar cores assimétricos andam com velocidades s em que nível? programador de aplicação programador de biblioteca compilador runtime system SO hypervisor (VM monitor) hardware nível mais alto: usa mais informação nível mais baixo: maior o ganho (i) é difícil escrever SW para sistemas assimétricos (ii) não se sabe projetar HW para sistemas dinâmicos UFPR-CI,CI desempenho de multicores 29