No início deste ano, o Centro Nacional de Supercomputação em Wuxi (uma entidade na lista negra dos EUA) lançou seu novo supercomputador baseado nos processadores Sunway SW26010 Pro aprimorados, projetados na China, com 384 núcleos. A CPU SW26010 Pro da Sunway não apenas contém mais núcleos do que seu antecessor não-Pro SW26010, mas também mais do que quadruplicou o rendimento computacional do FP64 devido a melhorias na microarquitetura e na arquitetura do sistema, de acordo com Batatas fritas e queijo. No entanto, embora a CPU Manycore seja boa no papel, ela apresenta vários gargalos de desempenho.
Os primeiros detalhes da CPU Manycore Sunway SW26010 Pro e dos supercomputadores que a utilizam surgiram em 2021. Agora, a empresa apresentou processadores reais e divulgou mais detalhes sobre sua arquitetura e design, que representam um salto significativo em desempenho, recentemente no SC23. Espera-se que a nova CPU permita à China construir supercomputadores de alto desempenho baseados inteiramente em processadores desenvolvidos internamente. Cada Sunway SW26010 Pro tem uma taxa de transferência máxima de FP64 de 13,8 TFLOPS, o que é enorme. Para efeito de comparação, o EPYC 9654 de 96 núcleos da AMD tem um desempenho máximo de FP64 de cerca de 5.4TFLOPS.
CPU | Núcleos de computação | FP64 | FP32 |
SW26010-Pro | 384 | 13,8 TFLOPS | 27,6 TFLOPS |
SW26010 | 256 | 2,9 TFLOPS | 5,8 TFLOPS |
A64FX | 48 | 3TFLOPS | 6TFLOPS |
MI250X (GCD único) | 110 | 23,9 TFLOPS | 23,9 TFLOPS | 47,8 TFLOPS (empacotado) |
O SW26010 Pro é uma evolução do SW26010 original, portanto mantém a arquitetura fundamental de seu antecessor, mas introduz vários aprimoramentos importantes. O novo processador SW26010 Pro é baseado em uma arquitetura RISC proprietária de 64 bits totalmente nova e inclui seis grupos principais (CG) e uma unidade de processamento de protocolo (PPU). Cada CG integra 64 elementos de processamento de computação (CPEs) de 2 larguras com um mecanismo vetorial de 512 bits, bem como 256 KB de armazenamento local rápido (cache de bloco de rascunho) para dados e 16 KB para instruções; um elemento de processamento de gerenciamento (MPE), que é um núcleo superescalar fora de ordem com um mecanismo de vetor, cache de instruções/dados L1 de 32 KB/32 KB, cache L2 de 256 KB; e uma interface de memória DDR4-3200 de 128 bits.
MPEs e CPEs usam um protocolo baseado em diretório para permitir o compartilhamento coerente de dados para reduzir a movimentação de dados entre núcleos e apoiar interações refinadas entre diferentes núcleos, o que é particularmente importante para aplicações com acesso irregular ao compartilhamento de dados. Com seis CPEs, cada processador SW26010 possui 384 CPEs e seis MPEs, totalizando 390 núcleos e uma PPU.
O SW26010 Pro não apenas roda mais rápido que seu antecessor (CPE roda a 2,25 GHz, MPE roda a 2,10 GHz em vez de 1,45 GHz para CPE e MPE no antecessor), mas a nova microarquitetura RISC de 64 bits na CPU SW26010 Pro tem foi completamente remodelado para quadruplicar a taxa de transferência de processamento de dados FP64 do processador. Para fornecer mais largura de banda de memória para novos núcleos, os projetistas mudaram a CPU de controladores de memória DDR3 para DDR4, o que aumentou significativamente a largura de banda e a capacidade da memória. Cada CG agora está equipado com 16 GB de memória DDR4, dobrando os 8 GB de memória DDR3 encontrados em cada cluster do SW26010. Este aprimoramento aumenta a memória total suportada por uma CPU de 32 GB no SW26010 para 96 GB no SW26010-Pro.
Apesar desses avanços, tanto o SW26010 quanto o SW26010-Pro compartilham uma limitação comum em seu subsistema de cache e memória. O SW26010-Pro tenta resolver seu problema de cache aumentando a capacidade do scratchpad para 256 KB, acima dos 64 KB do SW26010. Mas um cache de scratchpad de 256 KB por CPE em meio à falta de L2 adequado não é suficiente, então ambos os processadores ainda apresentam um grande gargalo de desempenho. Enquanto isso, um subsistema de memória DDR4-3200 de canal duplo (51,2 GB/s) mal é suficiente para 64 núcleos, cada um apresentando uma FPU vetorial de 512 bits e capaz de até 16 FP64 FLOPS/ciclo.
Concluindo, o SW26010 Pro representa um avanço significativo em relação ao SW26010, especialmente em termos de capacidade de memória, densidade de computação e desempenho geral. Estas melhorias demonstram a crescente capacidade da China em supercomputação. No entanto, o novo processador tem duas desvantagens principais: um subsistema de cache fraco (que pode ser mitigado com otimizações de software, mas essas otimizações são caras do ponto de vista de tempo e dinheiro) e largura de banda de memória insuficiente. Como resultado, resta saber se poderia ser usado para construir sistemas para resolver problemas complexos do mundo real que verdadeiramente oferecer Níveis de desempenho ExaFLOPS.