AMD contra-ataca Nvidia com novos benchmarks MI300X – MI300X mostra desempenho 30% maior que H100, mesmo com uma pilha de software otimizada

Nem a AMD nem a Nvidia pretendem desistir deste argumento envolvendo a diferença de desempenho entre as GPUs Instinct MI300X e H100 (Hopper). Mas a AMD apresenta alguns pontos fortes ao comparar o FP16 usando vLLM, que é uma escolha mais popular com o FP8, que funciona apenas com TensorRT-LLM.

A equipe vermelha anunciou o acelerador gráfico MI300X no início de dezembro, reivindicando uma vantagem de até 1,6X sobre o H100 da Nvidia. Dois dias atrás, a Nvidia respondeu dizendo que a AMD não usou suas otimizações ao comparar o H100 com o TensorRT-LLM. A resposta chegou a um único H100 contra GPUs H100 de oito vias durante a execução do modelo de bate-papo Llama 2 70B.

A guerra contínua de resultados de benchmark e cenários de teste

Nesta última resposta, a AMD disse que a Nvidia usou um conjunto seletivo de cargas de trabalho de inferência. Ele identificou ainda que a Nvidia os comparou usando seu TensorRT-LLM interno no H100 em vez do vLLM, um método de código aberto e amplamente utilizado. Além disso, a Nvidia usou o tipo de dados de desempenho vLLM FP16 na AMD ao comparar seus resultados com o DGX-H100, que usou o TensorRT-LLM com tipo de dados FP8 para exibir esses supostos resultados mal interpretados. A AMD enfatizou que em seu teste usou vLLM com o conjunto de dados FP16 devido ao seu uso generalizado, e vLLM não suporta FP8.

Há também a questão de que os servidores terão latência, mas em vez de levar em conta isso, a Nvidia mostrou seu desempenho de rendimento, não emulando a situação do mundo real, segundo a AMD.

Resultados de teste atualizados da AMD com mais otimizações e contabilização de latência com o método de teste da Nvidia

A AMD fez três execuções de desempenho usando TensorRT-LLM da Nvidia, a última notável tendo medido resultados de latência entre MI300X e vLLM usando o conjunto de dados FP16 contra H100 com TensorRT-LLM. Mas o primeiro teste envolveu uma comparação entre os dois usando vLLM em ambos, daí FP16, e para o segundo teste, comparou o desempenho do MI300X com o vLLM enquanto comparava o TensorRT-LLM.

(Crédito da imagem: AMD)

Assim, a AMD usou o mesmo cenário de teste selecionado que a Nvidia fez com seu segundo e terceiro cenários de teste, mostrando maior desempenho e latência reduzida. A empresa adicionou mais otimizações em comparação ao H100 ao executar o vLLM em ambos, oferecendo um aumento de 2,1x no desempenho.

Cabe agora à Nvidia avaliar como quer responder. Mas também precisa reconhecer que isso exigiria que a indústria abandonasse o FP16 com o sistema fechado do TensorRT-LLM para usar o FP8, essencialmente abandonando o vLLM para sempre. Ao se referir ao prêmio da Nvidia, um Redditor disse uma vez“TensorRT-LLM é gratuito, assim como as coisas que vêm de graça com um Rolls Royce.”

AMD contra-ataca Nvidia com novos benchmarks MI300X – MI300X mostra desempenho 30% maior que H100, mesmo com uma pilha de software otimizada

A guerra contínua de resultados de benchmark e cenários de teste

Resultados de teste atualizados da AMD com mais otimizações e contabilização de latência com o método de teste da Nvidia

Links rápidos