Nvidia Hopper H200 alcança novo recorde de benchmark MLPerf com TensorRT - aguardando a liberação da Blackwell, pedimos desculpas.

A Nvidia relata que sua nova GPU Hopper H200 AI combinada com seu TensorRT LLM de melhoria de desempenho quebrou o recorde nos últimos benchmarks de desempenho MLPerf. A combinação aumentou o desempenho do H200 para impressionantes 31.712 tokens por segundo no benchmark Llama 2 70B da MLPerf, uma melhoria de 45% em relação à GPU H100 Hopper da geração anterior da Nvidia.

Hopper H200 é basicamente o mesmo silício do H100, mas a memória foi atualizada para pilhas 12-Hi de 24 GB de HBM3e. Isso resulta em 141 GB de memória por GPU com 4,8 TB/s de largura de banda, enquanto o H100 normalmente tinha apenas 80 GB por GPU (94 GB em alguns modelos) com até 3 TB/s de largura de banda.

Este recorde será, sem dúvida, quebrado ainda este ano, ou no início do próximo, assim que as próximas GPUs Blackwell B200 chegarem ao mercado. A Nvidia provavelmente tem Blackwell internamente e em testes, mas ainda não está disponível publicamente. No entanto, ele reivindicou desempenho até 4 vezes superior ao H100 para cargas de trabalho de treinamento.

A Nvidia é o único fabricante de hardware de IA no mercado que publicou resultados completos desde que os benchmarks de inferência de data center do MLPerf foram disponibilizados no final de 2020. A última iteração do novo benchmark do MLPerf utiliza Llama 2 70B, é um modelo de linguagem de última geração aproveitando 70 bilhões de parâmetros. O Llama 2 é mais de 10x maior que o GPT-J LLM usado anteriormente nos benchmarks do MLPerf.

A Nvidia também destacou o quanto conseguiu melhorar o desempenho da GPU H100 com seu software TensorRT – um conjunto de ferramentas de código aberto para ajudar a acelerar a eficiência de processamento de suas GPUs. TensortRT é composto por vários elementos, incluindo paralelismo de tensor e lote em voo. O paralelismo tensor usa matrizes de peso individuais para executar um modelo de IA com eficiência em várias GPUs e servidores. O processamento em lote em andamento despeja sequências concluídas de solicitações em lote e começa a executar novas solicitações enquanto outras ainda estão em andamento.

As melhorias do TensorRT quando aplicadas ao benchmark MLPerf GPT-J resultaram em uma melhoria de 3X no desempenho nos últimos seis meses – para o mesmo hardware.

A Nvidia também destacou seu desempenho no MLPerf Llama 2 70B quando comparado com a solução Gaudi2 NPU da Intel. De acordo com os gráficos da Nvidia, o H200 alcançou seu recorde mundial de 31.712 pontuações no modo servidor com melhorias no TensorRT-LLM. No modo offline, o chip marcou 29.526 pontos. As novas pontuações do H200 são cerca de 45% mais rápidas do que as que o H100 poderia alcançar, em grande parte graças a ter mais largura de banda e capacidade de memória. No mesmo benchmark, usando também o TensorRT, o H100 obteve pontuação de 21.806 e 20.556 nos modos servidor e offline, respectivamente. Os resultados do Gaudi2 da Intel, em comparação, foram de apenas 6.287 e 8.035 nos modos servidor e offline.

Além do TensorRT, a Nvidia integrou várias outras otimizações em suas GPUs. A dispersão estruturada supostamente adiciona 33% de aceleração na inferência com o Llama 2, reduzindo os cálculos na GPU. A poda é outra otimização que simplifica um modelo de IA ou LLM para aumentar o rendimento de inferência. O DeepCache reduz a matemática necessária para inferência com modelos Stable Diffusion XL, acelerando o desempenho em 74%.

Abaixo está a apresentação de slides completa de Anúncio MLPerf da Nvidia. Você também pode ler mais sobre alguns dos Aprimoramentos do TensorRT em andamento na difusão estável.

Nvidia Hopper H200 alcança novo recorde de benchmark MLPerf com TensorRT – aguardando a liberação da Blackwell, pedimos desculpas.

Links rápidos