Nem a AMD nem a Nvidia pretendem desistir deste argumento envolvendo a diferença de desempenho entre as GPUs Instinct MI300X e H100 (Hopper). Mas a AMD apresenta alguns pontos fortes ao comparar o FP16 usando vLLM, que é uma escolha mais popular com o FP8, que funciona apenas com TensorRT-LLM.
A equipe vermelha anunciou o acelerador gráfico MI300X no início de dezembro, reivindicando uma vantagem de até 1,6X sobre o H100 da Nvidia. Dois dias atrás, a Nvidia respondeu dizendo que a AMD não usou suas otimizações ao comparar o H100 com o TensorRT-LLM. A resposta chegou a um único H100 contra GPUs H100 de oito vias durante a execução do modelo de bate-papo Llama 2 70B.
A guerra contínua de resultados de benchmark e cenários de teste
Nesta última resposta, a AMD disse que a Nvidia usou um conjunto seletivo de cargas de trabalho de inferência. Ele identificou ainda que a Nvidia os comparou usando seu TensorRT-LLM interno no H100 em vez do vLLM, um método de código aberto e amplamente utilizado. Além disso, a Nvidia usou o tipo de dados de desempenho vLLM FP16 na AMD ao comparar seus resultados com o DGX-H100, que usou o TensorRT-LLM com tipo de dados FP8 para exibir esses supostos resultados mal interpretados. A AMD enfatizou que em seu teste usou vLLM com o conjunto de dados FP16 devido ao seu uso generalizado, e vLLM não suporta FP8.
Há também a questão de que os servidores terão latência, mas em vez de levar em conta isso, a Nvidia mostrou seu desempenho de rendimento, não emulando a situação do mundo real, segundo a AMD.
Resultados de teste atualizados da AMD com mais otimizações e contabilização de latência com o método de teste da Nvidia
A AMD fez três execuções de desempenho usando TensorRT-LLM da Nvidia, a última notável tendo medido resultados de latência entre MI300X e vLLM usando o conjunto de dados FP16 contra H100 com TensorRT-LLM. Mas o primeiro teste envolveu uma comparação entre os dois usando vLLM em ambos, daí FP16, e para o segundo teste, comparou o desempenho do MI300X com o vLLM enquanto comparava o TensorRT-LLM.
Assim, a AMD usou o mesmo cenário de teste selecionado que a Nvidia fez com seu segundo e terceiro cenários de teste, mostrando maior desempenho e latência reduzida. A empresa adicionou mais otimizações em comparação ao H100 ao executar o vLLM em ambos, oferecendo um aumento de 2,1x no desempenho.
Cabe agora à Nvidia avaliar como quer responder. Mas também precisa reconhecer que isso exigiria que a indústria abandonasse o FP16 com o sistema fechado do TensorRT-LLM para usar o FP8, essencialmente abandonando o vLLM para sempre. Ao se referir ao prêmio da Nvidia, um Redditor disse uma vez“TensorRT-LLM é gratuito, assim como as coisas que vêm de graça com um Rolls Royce.”