Revelado o desempenho da GPU chinesa A800 da Nvidia

um pouco breve história sobre a demanda esmagadora por hardware de computação de alto desempenho da Nvidia na China revelou o desempenho da misteriosa GPU de computação A800 da Nvidia, que é feita para o mercado chinês. De acordo com MyDrivers, o A800 opera a 70% da velocidade das GPUs A100, ao mesmo tempo em que cumpre os rígidos padrões de exportação dos EUA que limitam quanto poder de processamento a Nvidia pode vender.

Com três anos agora, o A100 da Nvidia tem um desempenho e tanto: oferece 9,7 FP64/19,5 FP64 Tensor TFLOPS para HPC e até 624 BF16/FP16 TFLOPS (com esparsidade) para cargas de trabalho de IA. Mesmo sendo reduzidos em cerca de 30%, esses números ainda parecerão formidáveis: 6,8 FP64/13,7 FP64 Tensor TFLOPS, bem como 437 BF16/FP16 (com esparsidade).

Apesar da ‘castração’, (limites de desempenho), como MyDrivers coloca, o A800 da Nvidia é um grande rival das GPUs de computação BR104 e BR100 da Biren totalmente desenvolvidas na China em termos de recursos de computação. Enquanto isso, as GPUs de computação da Nvidia e sua arquitetura CUDA são amplamente suportadas por aplicativos executados por seus clientes, enquanto os processadores da Biren ainda precisam ser adotados. E mesmo a Biren não pode enviar suas GPUs de computação completas para a China devido aos regulamentos mais recentes.

Deslize para rolar horizontalmente

Linha 0 – Célula 0	BR104 de dois	Nvidia A800	Nvidia A100	Nvidia H100
Fator de forma	Cartão FHFL	Cartão FHFL (?)	SXM4	SXM5
Contagem de transistores	?	54,2 bilhões	54,2 bilhões	80 bilhões
Nó	N7	N7	N7	4N
Poder	300W	?	400W	700W
FP32 TFLOPS	128	13.7 (?)	19.5	60
TF32+ TFLOPS	256	?	?	?
TF32 TFLOPS	?	109/218* (?)	156/312*	500/1000*
FP16 TFLOPS	?	56 (?)	78	120
Tensor FP16 TFLOPS	?	218/437*	312/624*	1000/2000*
BF16 TFLOPS	512	27	39	120
Tensor BF16 TFLOPS	?	218/437*	312/624*	1000/2000*
INT8	1024	?	?	?
Tensor INT8 TFLOPS	?	437/874*	624/1248*	2000/4000*

* Com esparsidade

As regras de exportação impostas pelos Estados Unidos em outubro de 2021 proíbem a exportação de tecnologias americanas que permitem supercomputadores com desempenho superior a 100 FP64 PetaFLOPS ou 200 FP32 PetaFLOPS em um espaço de 41.600 pés cúbicos (1.178 metros cúbicos) ou menos para a China. Embora as restrições de exportação não limitem especificamente o desempenho de cada GPU de computação vendida para uma entidade com sede na China, elas restringem sua taxa de transferência e escalabilidade.

Depois que as novas regras entraram em vigor, a Nvidia perdeu a capacidade de vender suas GPUs de computação A100 e H100 de última geração para clientes da China sem uma licença de exportação, o que é difícil de obter. Em uma tentativa de satisfazer a demanda pelo desempenho exigido pelos hyperscalers chineses, a empresa lançou uma versão reduzida de sua GPU A100 apelidada de A800. Até agora, não estava claro o quão capaz é esta GPU.

Como o uso de inteligência artificial está aumentando entre consumidores e empresas, a popularidade do hardware de alto desempenho que pode lidar com cargas de trabalho apropriadas está crescendo. A Nvidia está entre as principais beneficiárias da megatendência da IA, e é por isso que suas GPUs estão em alta demanda que até mesmo o A800 reduzido está esgotado na China.

(Crédito da imagem: Biren Technology)

O BR100 da Biren estará disponível em um fator de forma OAM e consumirá até 550W de energia. O chip suporta a tecnologia BLink de 8 vias proprietária da empresa, que permite a instalação de até oito GPUs BR100 por sistema. Em contraste, o BR104 de 300 W será fornecido em um fator de forma de placa PCIe de largura dupla FHFL e suportará configuração multi-GPU de até 3 vias. Ambos os chips usam uma interface PCIe 5.0 x16 com o protocolo CXL para aceleradores no topo, relata EETtrend (através da VideoCardz).

Tecnologia Biren

(Crédito da imagem: Biren Technology)

Biren diz que ambos os chips são fabricados usando o processo de fabricação da classe 7nm da TSMC (sem detalhar se ele usa N7, N7+ ou N7P). O BR100 maior contém 77 bilhões de transistores, superando os 54,2 bilhões com o Nvidia A100, que também é feito usando um dos nós N7 da TSMC. A empresa também diz que, para superar as limitações impostas pelo tamanho da retícula da TSMC, ela teve que usar o design de chiplet e a tecnologia CoWoS 2.5D da fundição, o que é completamente lógico, já que o A100 da Nvidia estava se aproximando do tamanho de uma retícula e o BR100 deveria ser ainda maior dada a sua maior contagem de transistores.

Dadas as especificações, podemos especular que o BR100 basicamente usa dois BR104s, embora o desenvolvedor não tenha confirmado isso formalmente.

Para comercializar seu acelerador BR100 OAM, a Biren trabalhou com a Inspur em um servidor AI de 8 vias que será amostrado a partir do quarto trimestre de 2022. Baidu e China Mobile estarão entre os primeiros clientes a usar as GPUs de computação da Biren.

Tecnologia Biren

(Crédito da imagem: Biren Technology)

Revelado o desempenho da GPU chinesa A800 da Nvidia

Links rápidos