um pouco breve história sobre a demanda esmagadora por hardware de computação de alto desempenho da Nvidia na China revelou o desempenho da misteriosa GPU de computação A800 da Nvidia, que é feita para o mercado chinês. De acordo com MyDrivers, o A800 opera a 70% da velocidade das GPUs A100, ao mesmo tempo em que cumpre os rígidos padrões de exportação dos EUA que limitam quanto poder de processamento a Nvidia pode vender.
Com três anos agora, o A100 da Nvidia tem um desempenho e tanto: oferece 9,7 FP64/19,5 FP64 Tensor TFLOPS para HPC e até 624 BF16/FP16 TFLOPS (com esparsidade) para cargas de trabalho de IA. Mesmo sendo reduzidos em cerca de 30%, esses números ainda parecerão formidáveis: 6,8 FP64/13,7 FP64 Tensor TFLOPS, bem como 437 BF16/FP16 (com esparsidade).
Apesar da ‘castração’, (limites de desempenho), como MyDrivers coloca, o A800 da Nvidia é um grande rival das GPUs de computação BR104 e BR100 da Biren totalmente desenvolvidas na China em termos de recursos de computação. Enquanto isso, as GPUs de computação da Nvidia e sua arquitetura CUDA são amplamente suportadas por aplicativos executados por seus clientes, enquanto os processadores da Biren ainda precisam ser adotados. E mesmo a Biren não pode enviar suas GPUs de computação completas para a China devido aos regulamentos mais recentes.
Linha 0 – Célula 0 | BR104 de dois | Nvidia A800 | Nvidia A100 | Nvidia H100 |
Fator de forma | Cartão FHFL | Cartão FHFL (?) | SXM4 | SXM5 |
Contagem de transistores | ? | 54,2 bilhões | 54,2 bilhões | 80 bilhões |
Nó | N7 | N7 | N7 | 4N |
Poder | 300W | ? | 400W | 700W |
FP32 TFLOPS | 128 | 13.7 (?) | 19.5 | 60 |
TF32+ TFLOPS | 256 | ? | ? | ? |
TF32 TFLOPS | ? | 109/218* (?) | 156/312* | 500/1000* |
FP16 TFLOPS | ? | 56 (?) | 78 | 120 |
Tensor FP16 TFLOPS | ? | 218/437* | 312/624* | 1000/2000* |
BF16 TFLOPS | 512 | 27 | 39 | 120 |
Tensor BF16 TFLOPS | ? | 218/437* | 312/624* | 1000/2000* |
INT8 | 1024 | ? | ? | ? |
Tensor INT8 TFLOPS | ? | 437/874* | 624/1248* | 2000/4000* |
* Com esparsidade
As regras de exportação impostas pelos Estados Unidos em outubro de 2021 proíbem a exportação de tecnologias americanas que permitem supercomputadores com desempenho superior a 100 FP64 PetaFLOPS ou 200 FP32 PetaFLOPS em um espaço de 41.600 pés cúbicos (1.178 metros cúbicos) ou menos para a China. Embora as restrições de exportação não limitem especificamente o desempenho de cada GPU de computação vendida para uma entidade com sede na China, elas restringem sua taxa de transferência e escalabilidade.
Depois que as novas regras entraram em vigor, a Nvidia perdeu a capacidade de vender suas GPUs de computação A100 e H100 de última geração para clientes da China sem uma licença de exportação, o que é difícil de obter. Em uma tentativa de satisfazer a demanda pelo desempenho exigido pelos hyperscalers chineses, a empresa lançou uma versão reduzida de sua GPU A100 apelidada de A800. Até agora, não estava claro o quão capaz é esta GPU.
Como o uso de inteligência artificial está aumentando entre consumidores e empresas, a popularidade do hardware de alto desempenho que pode lidar com cargas de trabalho apropriadas está crescendo. A Nvidia está entre as principais beneficiárias da megatendência da IA, e é por isso que suas GPUs estão em alta demanda que até mesmo o A800 reduzido está esgotado na China.
O BR100 da Biren estará disponível em um fator de forma OAM e consumirá até 550W de energia. O chip suporta a tecnologia BLink de 8 vias proprietária da empresa, que permite a instalação de até oito GPUs BR100 por sistema. Em contraste, o BR104 de 300 W será fornecido em um fator de forma de placa PCIe de largura dupla FHFL e suportará configuração multi-GPU de até 3 vias. Ambos os chips usam uma interface PCIe 5.0 x16 com o protocolo CXL para aceleradores no topo, relata EETtrend (através da VideoCardz).
Biren diz que ambos os chips são fabricados usando o processo de fabricação da classe 7nm da TSMC (sem detalhar se ele usa N7, N7+ ou N7P). O BR100 maior contém 77 bilhões de transistores, superando os 54,2 bilhões com o Nvidia A100, que também é feito usando um dos nós N7 da TSMC. A empresa também diz que, para superar as limitações impostas pelo tamanho da retícula da TSMC, ela teve que usar o design de chiplet e a tecnologia CoWoS 2.5D da fundição, o que é completamente lógico, já que o A100 da Nvidia estava se aproximando do tamanho de uma retícula e o BR100 deveria ser ainda maior dada a sua maior contagem de transistores.
Dadas as especificações, podemos especular que o BR100 basicamente usa dois BR104s, embora o desenvolvedor não tenha confirmado isso formalmente.
Para comercializar seu acelerador BR100 OAM, a Biren trabalhou com a Inspur em um servidor AI de 8 vias que será amostrado a partir do quarto trimestre de 2022. Baidu e China Mobile estarão entre os primeiros clientes a usar as GPUs de computação da Biren.