Os novos servidores Azure focados em IA da Microsoft são equipados com GPUs de datacenter MI300X da AMD, mas são combinados com CPUs Xeon Sapphire Rapids da Intel. As principais CPUs EPYC Genoa de quarta geração da AMD são poderosas, mas Sapphire Rapids parece ter algumas vantagens importantes quando se trata de impulsionar GPUs de computação de IA. Não é apenas a Microsoft que escolhe o Sapphire Rapids, já que a Nvidia também parece preferi-lo aos chips EPYC da geração atual da AMD.
Provavelmente vários fatores convenceram a Microsoft a optar pelo Sapphire Rapids da Intel em vez do Genoa da AMD, mas o suporte da Intel para suas instruções Advanced Matrix Extensions (ou AMX) pode estar entre os motivos importantes pelos quais a Microsoft escolheu o Sapphire Rapids. De acordo com a Intel, essas instruções são adaptadas para acelerar as tarefas de IA e aprendizado de máquina em até sete vezes.
Embora o Sapphire Rapids não seja particularmente eficiente e tenha um desempenho multithread pior do que o Genoa, seu desempenho single-thread é muito bom para algumas cargas de trabalho. Isso não é algo que apenas ajuda especificamente as cargas de trabalho de IA; é apenas uma vantagem geral em alguns tipos de computação.
Também é importante notar que os servidores que usam GPUs de classe de datacenter da Nvidia também acompanham Sapphire Rapids, incluindo os próprios sistemas DGX H100 da Nvidia. O CEO da Nvidia, Jensen Huang, disse que o “excelente desempenho single-threaded” do Sapphire Rapids foi uma razão específica pela qual ele queria CPUs da Intel para o DGX H100 em vez das da AMD.
As novas instâncias do Azure também apresentam switches Quantum-2 CX7 InfiniBand da Nvidia, reunindo o hardware dos três gigantes da tecnologia. Isso só mostra que, no mundo de ponta da IA, as empresas querem apenas o melhor hardware para o trabalho e não são particularmente exigentes quanto a quem o fabrica, independentemente das rivalidades.
Com oito GPUs MI300X contendo 192 GB de memória HBM3 cada, essas instâncias do Azure orientadas para IA oferecem 1.536 GB combinados de VRAM, o que é crucial para o treinamento de IA. Todo esse VRAM foi provavelmente um grande motivo pelo qual a Microsoft selecionou o MI300X em vez das GPUs Hopper da Nvidia. Mesmo o melhor e mais recente chip H200 possui apenas 141 GB de HBM3e por GPU, uma quantidade significativamente menor que o MI300X.
A Microsoft também elogiou o software ROCm de código aberto da AMD. A AMD tem trabalhado arduamente para trazer o ROCm à paridade com a pilha de software CUDA da Nvidia, que domina amplamente os gráficos profissionais e de servidor. O fato de a Microsoft confiar no ROCm talvez seja um sinal de que o ecossistema de hardware-software da AMD está melhorando rapidamente.