O Argonne National Laboratory e a Intel anunciaram na quinta-feira que a instalação de 10.624 blades para o supercomputador Aurora foi concluída e o sistema ficará online no final de 2023. A máquina usa dezenas de milhares de processadores Xeon Max ‘Sapphire Rapids’ com memória HBM2E, bem como Dezenas de milhares de GPUs de computação Max ‘Ponte Vecchio’ do Data Center para obter desempenho de mais de 2 FP64 ExaFLOPS.
O supercomputador Aurora construído pela HPE consiste em 166 racks com 64 blades por rack, totalizando 10.624 blades. Cada blade Aurora é baseado em duas CPUs Xeon Max com 64 GB de memória HBM2E integrada, bem como seis GPUs de computação Intel Data Center Max ‘Ponte Vecchio’. Essas CPUs e GPUs serão resfriadas com um sistema de refrigeração líquida personalizado.
No total, o supercomputador Aurora inclui 21.248 CPUs de uso geral com mais de 1,1 milhão de núcleos de alto desempenho, 19,9 petabytes (PB) de memória DDR5, 1,36 PB de memória HBM2E anexada às CPUs e 63.744 GPUs de computação projetadas para cargas de trabalho de IA e HPC massivamente paralelas com 8,16 PB de memória HBM2E integrada. Os blades são interconectados usando o tecido Slingshot da HPE, projetado especificamente para supercomputadores.
“Aurora é a primeira implantação da GPU da série Max da Intel, o maior sistema baseado em CPU Xeon Max e o maior cluster de GPU do mundo”, disse Jeff McVeigh, vice-presidente corporativo da Intel e gerente geral do Super Compute Group. “Estamos orgulhosos de fazer parte deste sistema histórico e entusiasmados com a IA, a ciência e a engenharia inovadoras que o Aurora possibilitará”.
O supercomputador Aurora usa uma matriz de 1.024 nós de armazenamento que consistem em dispositivos de armazenamento de estado sólido e fornecem 220 TB de capacidade, bem como 31 TB/s de largura de banda total, o que será útil para lidar com cargas de trabalho envolvendo conjuntos de dados massivos, como pesquisa de fusão nuclear, engenharia científica, simulações físicas, pesquisa de cura, previsão do tempo e outras tarefas.
Embora a instalação dos blades Aurora tenha sido concluída, o supercomputador ainda não passou no teste de aceitação. Quando o fizer e ficar online no final deste ano, promete atingir um pico teórico de desempenho além de 2 ExaFLOPS, tornando-se o primeiro supercomputador a atingir esse nível de desempenho ao ingressar nas fileiras da lista Top500.
“Enquanto trabalhamos para o teste de aceitação, vamos usar o Aurora para treinar alguns modelos de IA geradora de código aberto em grande escala para a ciência”, disse Rick Stevens, diretor associado do laboratório do Argonne National Laboratory. “O Aurora, com mais de 60.000 GPUs Intel Max, um sistema de E/S muito rápido e um sistema de armazenamento em massa totalmente em estado sólido, é o ambiente perfeito para treinar esses modelos.”
Enquanto o supercomputador Aurora ainda precisa passar por testes e a ANL ainda precisa enviar seus resultados de desempenho ao Top500.org, a Intel aproveitou a oportunidade para compartilhar as vantagens de desempenho que seu hardware tem sobre as soluções concorrentes da AMD e da Nvidia.
De acordo com a Intel, os testes preliminares com as GPUs da série Max mostram que elas se destacam em ‘cargas de trabalho de ciência e engenharia do mundo real’, oferecendo desempenho duas vezes maior que as GPUs AMD Instinct MI250X no OpenMC e quase perfeitamente escaláveis em centenas de nós. Além disso, a Intel diz que sua CPU Intel Xeon Max Series oferece uma vantagem de 40% no desempenho sobre seus rivais em vários aplicativos HPC do mundo real, incluindo HPCG, NEMO-GYRE, Anerlastic Wave Propagation, BlackScholes e OpenFOAM.