Esperava-se que o supercomputador Aurora, com tecnologia Intel, ocupasse o primeiro lugar do Frontier, com tecnologia AMD, o supercomputador nº 1 na lista Top500, mas em vez disso ficou em segundo lugar. No entanto, Aurora assumiu o primeiro lugar no benchmark de precisão mista HPL-MxP centrado em IA, permitindo à Intel reivindicar a potência do supercomputador de IA mais rápido do mundo com 10,6 Exaflops de IA de desempenho.
Vale ressaltar que o Aurora ainda não está totalmente operacional, portanto todo o sistema não foi utilizado para nenhum dos envios de benchmark. Aurora continua assolado por vários problemas de hardware (detalhes na última seção abaixo), e os problemas contínuos são um pouco surpreendentes – o sistema foi anunciado pela primeira vez há nove anos, a segunda revisão foi anunciada há cinco anos (a primeira versão foi cancelada), e os componentes finais foram instalados há onze meses.
O sistema abriga 21.248 CPUs e 63.744 GPUs espalhadas por 10.624 blades de computação, mas o Argonne National Laboratory (ANL), que hospeda o sistema, não conseguiu novamente enviar uma execução completa do Linpack para a lista Top500.
Em vez disso, Aurora ficou em segundo lugar com 1.012 Exaflops, quebrando a barreira do Exaflop com 87% do sistema ativo (9.234 dos 10.624 nós completos). Isso solidifica a segunda posição do Aurora – a primeira submissão do Aurora (com apenas metade do sistema) também ficou em segundo lugar, alcançando 585,34 petaflops há seis meses.
Supõe-se que Aurora seja mais rápido que Frontier no High-Performance Linpack (benchmark HP e, portanto, assumirá a liderança no Top500 após a conclusão, mas está claro que o sistema precisará de mais ajustes para corresponder ao seu faturamento. Frontier é ~ 19% mais rápido do que o Aurora com 1.206 exaflops de desempenho e, assumindo escala linear, o Aurora ainda não venceria após adicionar os 13% restantes de nós que não foram usados para a execução do benchmark Top500.
A Intel alardeou o desempenho máximo teórico do Aurora de 2 exaflops (Rpeak), mas os supercomputadores são medidos pelo desempenho sustentado (Rmax). Perguntei à ANL se se espera que Aurora assuma a liderança sobre Frontier no Top500 após a conclusão. “Existe um número-alvo contratual que é mais rápido que o Frontier”, respondeu um representante. “Portanto, se conseguirmos atingir esse número, seremos mais rápidos que o Frontier.” Notavelmente, a declaração diz Aurora deve vencer Frontier, não que isso vai. Seguimos em busca de uma confirmação firme da meta de desempenho real.
Aurora ficou em primeiro lugar no benchmark de precisão mista HPL-MxP com 10,6 exaflops de desempenho de IA com apenas 89% do sistema Aurora ativo. Este benchmark prioriza precisão mais baixa (FP32 e inferior, até mesmo FP16) do que o FP64 usado para o benchmark Linpack usado para o ranking Top500. Assim, este benchmark representa melhor as cargas de trabalho de IA e um número crescente de outras aplicações do mundo real – o FP64 é em grande parte relegado à computação científica tradicional, e alguns argumentam que também é uma porção cada vez menor desse segmento.
O HPL-MxP está se tornando muito mais importante para modelar o desempenho no mundo real na era da IA, mas a posição da Aurora no topo será fortemente contestada. Ainda não houve uma inscrição de um sistema em grande escala equipado com Nvidia Grace-Hopper para a tabela de classificação. O supercomputador Alps, que agora promete 20 exaflops de desempenho de IA, está programado para ter todos os seus 10.752 processadores Grace Hopper instalados até o final de junho de 2024, então a competição pela liderança está a caminho.
O benchmark High Performance Conjugate Gradients (HPCG) também foi projetado para ser mais representativo de aplicações de carga de trabalho reais do que o Linpack. Aurora também teve um desempenho impressionante neste benchmark, ficando em 3º lugar com apenas 38,5% do supercomputador ativo. Aurora também ficou em quinto lugar no benchmark Graph500, que é projetado para medir o desempenho em aplicativos com uso intensivo de dados, mas a ANL não especificou quanto do sistema estava ativo para esta execução de benchmark.
Aurora não incluiu no Green500, uma lista dos supercomputadores com maior eficiência energética, e isso não é surpreendente. Aurora consumirá até 60 mW de potência de pico, um pouco mais que o dobro dos 29 mW do Frontier, mas não sabemos como será seu desempenho final. Não está claro se o Aurora pode vencer o Frontier no desempenho do Linpack, mas mesmo que ganhe, será por uma pequena quantidade – certamente não o suficiente para justificar o aumento do consumo de energia para aquela carga de trabalho específica. No entanto, existem muitas outras aplicações que operam com precisões mais baixas, e as comparações de eficiência energética variam de acordo com a aplicação.
Aurora enfrentando falhas de hardware, mau funcionamento do sistema de refrigeração, entre outros problemas
Dez long
Gostaríamos de lhe enviar notificações com novidades, você pode cancelar a qualquer momento.