A Nvidia relata que sua nova GPU Hopper H200 AI combinada com seu TensorRT LLM de melhoria de desempenho quebrou o recorde nos últimos benchmarks de desempenho MLPerf. A combinação aumentou o desempenho do H200 para impressionantes 31.712 tokens por segundo no benchmark Llama 2 70B da MLPerf, uma melhoria de 45% em relação à GPU H100 Hopper da geração anterior da Nvidia.
Hopper H200 é basicamente o mesmo silício do H100, mas a memória foi atualizada para pilhas 12-Hi de 24 GB de HBM3e. Isso resulta em 141 GB de memória por GPU com 4,8 TB/s de largura de banda, enquanto o H100 normalmente tinha apenas 80 GB por GPU (94 GB em alguns modelos) com até 3 TB/s de largura de banda.
Este recorde será, sem dúvida, quebrado ainda este ano, ou no início do próximo, assim que as próximas GPUs Blackwell B200 chegarem ao mercado. A Nvidia provavelmente tem Blackwell internamente e em testes, mas ainda não está disponível publicamente. No entanto, ele reivindicou desempenho até 4 vezes superior ao H100 para cargas de trabalho de treinamento.
A Nvidia é o único fabricante de hardware de IA no mercado que publicou resultados completos desde que os benchmarks de inferência de data center do MLPerf foram disponibilizados no final de 2020. A última iteração do novo benchmark do MLPerf utiliza Llama 2 70B, é um modelo de linguagem de última geração aproveitando 70 bilhões de parâmetros. O Llama 2 é mais de 10x maior que o GPT-J LLM usado anteriormente nos benchmarks do MLPerf.
A Nvidia também destacou o quanto conseguiu melhorar o desempenho da GPU H100 com seu software TensorRT – um conjunto de ferramentas de código aberto para ajudar a acelerar a eficiência de processamento de suas GPUs. TensortRT é composto por vários elementos, incluindo paralelismo de tensor e lote em voo. O paralelismo tensor usa matrizes de peso individuais para executar um modelo de IA com eficiência em várias GPUs e servidores. O processamento em lote em andamento despeja sequências concluídas de solicitações em lote e começa a executar novas solicitações enquanto outras ainda estão em andamento.
As melhorias do TensorRT quando aplicadas ao benchmark MLPerf GPT-J resultaram em uma melhoria de 3X no desempenho nos últimos seis meses – para o mesmo hardware.
A Nvidia também destacou seu desempenho no MLPerf Llama 2 70B quando comparado com a solução Gaudi2 NPU da Intel. De acordo com os gráficos da Nvidia, o H200 alcançou seu recorde mundial de 31.712 pontuações no modo servidor com melhorias no TensorRT-LLM. No modo offline, o chip marcou 29.526 pontos. As novas pontuações do H200 são cerca de 45% mais rápidas do que as que o H100 poderia alcançar, em grande parte graças a ter mais largura de banda e capacidade de memória. No mesmo benchmark, usando também o TensorRT, o H100 obteve pontuação de 21.806 e 20.556 nos modos servidor e offline, respectivamente. Os resultados do Gaudi2 da Intel, em comparação, foram de apenas 6.287 e 8.035 nos modos servidor e offline.
Além do TensorRT, a Nvidia integrou várias outras otimizações em suas GPUs. A dispersão estruturada supostamente adiciona 33% de aceleração na inferência com o Llama 2, reduzindo os cálculos na GPU. A poda é outra otimização que simplifica um modelo de IA ou LLM para aumentar o rendimento de inferência. O DeepCache reduz a matemática necessária para inferência com modelos Stable Diffusion XL, acelerando o desempenho em 74%.
Abaixo está a apresentação de slides completa de Anúncio MLPerf da Nvidia. Você também pode ler mais sobre alguns dos Aprimoramentos do TensorRT em andamento na difusão estável.