As demandas sempre crescentes de desempenho dos datacenters em nuvem exigem que os desenvolvedores de CPU repensem seus projetos em uma tentativa de oferecer desempenho máximo por soquete, ao mesmo tempo em que enfrentam restrições de custo definidas pela lentidão da Lei de Moore. O EPYC ‘Begamo’ da AMD é o primeiro processador x86 cloud-native da indústria baseado na microarquitetura Zen 4c especialmente adaptada que mantém essencialmente o mesmo conjunto de recursos com a microarquitetura Zen 4 enquanto reduz pela metade os requisitos de tamanho do núcleo, relatórios Semianálise.
O processador EPYC ‘Bergamo’ da AMD contém 128 núcleos e fica no mesmo soquete SP5 da CPU EPYC ‘Genoa’ de 96 núcleos e possui um subsistema de memória DDR5-4800 de 12 canais semelhante, bem como usa o mesmo die de E/S (codinome Floyd), o que significa que também possui 128 pistas PCIe Gen5 e outras peculiaridades dos produtos SP5. Sendo um sistema em chip (SoC) nativo da nuvem – e, até certo ponto, uma resposta aos emergentes SoCs de nível de datacenter baseados em Arm da Ampere, Amazon, Google e Microsoft – o design de Bergamo foi moldado por vários fatores, incluindo eficiência, uso de energia, tamanho da matriz e baixo custo total de propriedade (TCO) em vez do objetivo de oferecer o máximo desempenho por núcleo.
Linha 0 – Célula 0 | EPYC 9654 | EPYC 9754 | EPYC 9734 |
Projeto | Génova | Bérgamo | Bérgamo |
microarquitetura | Zen 4/Perséfone | Zen 4c/Dionísio | Zen 4c/Dionísio |
Núcleos/Threads | 96/192 | 128/256 | 112/224 |
Cache L1i | 32 KB | 32 KB | 32 KB |
Cache L1d | 32 KB | 32 KB | 32 KB |
Cache L2 | 1 MB | 1 MB | 1 MB |
Cache L2 Total | 96MB | 128 MB | 112MB |
Cache L3 por CCX | 32MB | 16MB | 16MB |
Total L3 Cache | 384 MB | 256MB | 256MB |
CCD | Durango | Vindhya | Vindhya |
Contagem CCD | 12 | 8 | 8 |
CCX por CCD | 1 | 2 | 2 |
Núcleos por CCD | 8 | 16 | 14 |
Matriz de E/S | Floyd | Floyd | Floyd |
Canais de Memória | 12 | 12 | 12 |
Velocidade nominal da memória | DDR5-4800 | DDR5-4800 | DDR5-4800 |
Largura de banda de memória | 460,8 GB/s | 460,8 GB/s | 460,8 GB/s |
Pistas PCIe 5.0 | 128 | 128 | 128 |
TDP/Max TDP | 360 W/400 W | 360 W/400 W | 360 W/400 W |
soquete | SP5 | SP5 | SP5 |
Escalabilidade | 2P | 2P | 2P |
No nível da microarquitetura, o Zen 4c mantém o mesmo design do Zen 4, incluindo recursos idênticos e desempenho de instruções por relógio, mas eles são configurados e implementados de maneira drasticamente diferente, afirma a SemiAnalysis. Quando se trata de núcleos Zen 4c ‘Dionysus’, eles são cerca de 35,4% menores em comparação com os núcleos Zen 4 ‘Perséfone’, de acordo com a SemiAnalysis. Para conseguir isso, a AMD teve que implementar uma série de truques de design. Os analistas acreditam:
- Reduziu as metas de clock de impulso de 3,70 GHz para 3,10 GHz. Isso simplificou o fechamento do tempo e diminuiu a necessidade de células de buffer extras para atender às restrições de tempo relaxadas. Os projetos de hoje são frequentemente limitados pela densidade de roteamento e pelo congestionamento, portanto, a redução da frequência permite um empacotamento mais rígido dos caminhos de sinal, aumentando a densidade das células padrão.
- Ele reduziu o número de partições físicas de um dado e juntou a lógica, o que dificultou a depuração e a introdução de correções, mas reduziu o tamanho do dado.
- Ele usou células SRAM de porta dupla 6T mais densas para o Zen 4c em vez de circuitos SRAM de porta dupla 8T para o Zen 4 para reduzir a área de SRAM. Como resultado, enquanto os núcleos Zen 4 e Zen 4c têm tamanhos de cache L1 e L2 semelhantes, a área usada pelos caches no caso do Zen 4c é menor, mas esses caches também não são tão rápidos quanto os do Zen 4.
- Por fim, removeu as matrizes de vias de silício (TSVs) para 3D V-Cache, para economizar ainda mais silício.
Esses não foram os únicos métodos de redução da área da matriz usados pela AMD. De acordo com a SemiAnalysis, o Bergamo da AMD é baseado em oito matrizes complexas de núcleo Vindhya (CCDs) que embalam 16 núcleos Zen 4c (acima dos oito núcleos Zen 4 por CCD) – o que se justifica porque os núcleos ficaram menores, mas também impactam o potencial de velocidade do clock. Cada CCD também possui dois complexos centrais de oito núcleos (CCX) e 32 MB de cache L3, ou 16 MB por CCX. Por outro lado, cada Zen 4 CCX possui 32 MB de L2, o que aumenta muito seu tamanho em comparação com o Zen 4c CCX.
No geral, podemos dizer que o Zen 4c e o Bergamo da AMD mudaram a trajetória do design, pois a empresa precisava encaixar 128 núcleos de classe Zen 4 no mesmo envelope de potência de 360 W – 400 W do Genoa. Metas de frequência reduzidas, uso de células SRAM mais densas e corte de L3 por CCX pela metade certamente permitiram que a AMD aumentasse sua contagem de núcleos, mas como isso afetou o desempenho por núcleo é algo que ainda teremos que descobrir.
A SemiAnalysis diz que a AMD está se preparando para lançar dois processadores Bergamo no final deste mês: o EPYC 9754 de 128 núcleos e seu irmão ligeiramente reduzido, o EPYC 9734 de 112 núcleos. , podemos apenas imaginar quantas ofertas de Bergamo personalizadas e semi-personalizadas a AMD eventualmente produzirá, mas, por enquanto, dois modelos devem ser apresentados já na próxima semana.
“Você vai ouvir sobre isso na próxima semana com o Bergamo, que é um dispositivo otimizado nativo da nuvem com alta densidade e muito bom desempenho por watt em eficiência de energia para computação nativa da nuvem”, disse Dan McNamara, divisão de servidores da AMD chefe, na Conferência Global de Tecnologia do Bank of America 2023 (via SeekingAlpha).