Com dois exaflops de desempenho, espera-se que o supercomputador Aurora com processador Intel supere o supercomputador Frontier com processador AMD, atualmente o mais rápido do mundo, e assuma a liderança na lista Top 500 dos supercomputadores mais rápidos. No entanto, devido aos contínuos atrasos da Intel na entrega do hardware, o Aurora ainda não apresentou um benchmark ao comitê Top 500, portanto não entrou na lista anunciada hoje. A Intel compartilhou novos detalhes sobre o sistema hoje e anunciou na conferência ISC que entregou ‘mais’ 10.000 blades operacionais para o supercomputador Aurora – mas com a ressalva de que esses não são os real blades necessários para implantação completa. Abordaremos os detalhes abaixo.
No entanto, a Intel diz que o sistema estará totalmente operacional ainda este ano e benchmarks compartilhados com Aurora enfrentando supercomputadores AMD e Nvidia, reivindicando uma vantagem de desempenho 2X sobre as GPUs MI250X da AMD e um ganho de 20% sobre o H100 da Nvidia. GPU.
A Intel diz que entregou o silício para ‘mais de’ 10.000 lâminas – tanto os chips Sapphire Rapids Xeon de quarta geração quanto as GPUs Ponte Vecchio – para o Argonne Leadership Computing Facility (ALCF).
No entanto, o Aurora foi projetado para operar com os chips Sapphire Rapids “Xeon Max” equipados com HBM da Intel, que foram perpetuamente atrasados. Devido a esses atrasos, a Intel inicialmente começou a enviar ALCF os chips não HBM Sapphire Rapids, e a instalação começou a preencher o Aurora com o padrão não HBM Sapphire Rapids como uma medida temporária.
A Intel agora está fornecendo os chips Xeon Max mais rápidos equipados com HBM para o ALCF, mas nem todos os 10.000 blades que ela promove como entregues têm os chips Max sob o capô. Consultamos a Intel e os representantes da empresa confirmaram que nem todos os blades estão equipados com o silício Xeon Max final. A empresa nos diz que aproximadamente 75% das lâminas contêm a revisão final Xeon Max do silício. Presumivelmente, esse é o gargalo que está impedindo o sistema de enviar um benchmark para a lista Top500.
O sistema consiste em 166 racks com 64 blades por rack, para um total de 10.624 blades, portanto, os ‘mais’ de 10.000 blades entregues provavelmente são suficientes para o sistema estar operacional, mas não com desempenho total.
A Intel também compartilhou mais especificações para o supercomputador Aurora, incluindo especificações detalhadas que você pode ver no slide acima. Com 21.248 CPUs e 63.744 GPUs Ponte Vecchio, o Aurora atingirá ou excederá dois exaflops de desempenho quando estiver totalmente online antes do final do ano. O sistema também possui 10,9 petabytes (PB) de memória DDR5, 1,36 PB de HBM anexado às CPUs, 8,16 PB de memória da GPU e 230 PB de capacidade de armazenamento que oferece 31 TB/s de largura de banda (outros detalhes interessantes estão incluídos no slide acima).
A Intel também revelou que o Aurora começaria a executar cargas de trabalho de IA generativas em uma série de cargas de trabalho. O grande modelo de linguagem ‘Aurora GPT’ será orientado para a ciência e terá 1 trilhão de parâmetros com bases Megatron e DeepSpeed. A Intel forneceu o seguinte resumo do projeto:
“Esses modelos generativos de IA para ciência serão treinados em textos gerais, códigos, textos científicos e dados científicos estruturados de biologia, química, ciência de materiais, física, medicina e outras fontes. Os modelos resultantes (com até 1 trilhão de parâmetros) serão ser usado em uma variedade de aplicações científicas, desde o projeto de moléculas e materiais até a síntese de conhecimento em milhões de fontes para sugerir novos e interessantes experimentos em biologia de sistemas, química de polímeros e materiais energéticos, ciência do clima e cosmologia. ser usado para acelerar a identificação de processos biológicos relacionados ao câncer e outras doenças e sugerir alvos para o desenvolvimento de medicamentos.”
A Intel também apresentou alguns benchmarks do sistema Sunspot, uma versão menor de dois racks do Aurora com 128 nós no total. A Intel comparou o desempenho do Sunspot com números extrapolados que representam o supercomputador Polaris de tamanho semelhante com GPUs Nvidia A100 e o supercomputador Crusher alimentado pelas GPUs MI250X da AMD. Infelizmente, a Intel não forneceu notas de teste ou detalhes dessas configurações, portanto, aceite os resultados com mais cautela do que o normal.
Em um teste de um único nó em uma carga de trabalho de previsão de reator, a Intel afirma que seu sistema é 45% mais rápido que o concorrente da Nvidia e 12% mais rápido que o sistema AMD. Voltando às métricas de escalabilidade, a Intel afirma que, ao normalizar o número total de GPUs usadas nos sistemas de teste para 96 GPUs (os nós AMD e Nvidia têm quatro GPUs cada, enquanto o sistema Intel tem seis por nó), o Sunspot oferece mais que o dobro do desempenho dos sistemas AMD e Nvidia na carga de trabalho de Monte Carlo. Para 90 nós na carga de trabalho NWChemEx, a Intel afirma que é 72% mais rápido do que um sistema Solaris com tecnologia Nvidia de 90 nós.
O supercomputador Aurora foi anunciado pela primeira vez em 2015, com data de término prevista para 2018. Naquela época, o sistema foi projetado para usar os processadores Knights Hill que foram posteriormente cancelados. O sistema passou por vários redesenhos e reagendamentos nos anos desde então, com o novo Aurora sendo anunciado em 2019 com um exaflop de desempenho a ser entregue em 2021. Ainda outro reescalonamento no final de 2021 afirmava que o sistema entregaria dois exaflops após a conclusão, o que é agora previsto para o final deste ano.
A longa e sinuosa estrada continua, mas finalmente parece que o fim está à vista. A Intel nos diz que entregará todos os processadores Xeon Max para terminar o sistema em breve, e que o sistema estará completo e apresentará seu primeiro benchmark Top 500 antes do final do ano.