O Instinct MI300 da AMD está se tornando um chip incrível com núcleos de CPU e GPU e uma grande placa de memória de alta velocidade reunida no mesmo processador, mas os detalhes permaneceram escassos. Agora, reunimos alguns novos detalhes de uma apresentação do International Super Computing (ISC) 2023 que descreve o próximo supercomputador El Capitan de dois exaflops que será alimentado pelo Instinct MI300. Também encontramos outros detalhes em uma palestra do CTO da AMD, Mark Papermaster, no ITF World 2023, uma conferência organizada pelo gigante de pesquisa imec (você pode ler nossa entrevista com o Papermaster aqui).
O supercomputador El Capitan está prestes a ser o mais rápido do mundo quando for ligado no final de 2023, assumindo a posição de liderança do Frontier alimentado pela AMD. O poderoso Instinct MI300 da AMD alimentará a máquina, e novos detalhes incluem um mapa de topologia de uma instalação do MI300, fotos do laboratório Austin MI300 da AMD e uma foto dos novos blades que serão empregados no supercomputador El Capitan. Também abordaremos alguns dos outros novos desenvolvimentos em torno da implantação do El Capitan.
Como lembrete, o Instinct MI300 é uma APU de data center que combina um total de 13 chiplets, muitos deles empilhados em 3D, para criar um pacote de chip único com vinte e quatro núcleos de CPU Zen 4 fundidos com um mecanismo gráfico CDNA 3 e oito pilhas de memória HBM3 totalizando 128 GB. No geral, o chip pesa 146 bilhões de transistores, tornando-o o maior chip que a AMD colocou em produção. As nove matrizes de computação, uma mistura de CPUs e GPUs de 5 nm, são empilhadas em 3D sobre quatro matrizes de base de 6 nm que são interpositores ativos que lidam com memória e tráfego de E/S, entre outras funções.
A palestra ITF World da Papermaster concentrou-se no objetivo “30×25” da AMD de aumentar a eficiência de energia em 30x até 2025 e como a computação agora está sendo controlada pela eficiência de energia à medida que a Lei de Moore diminui. A chave para essa iniciativa é o Instinct MI300, e muitos de seus ganhos vêm da topologia de sistema simplificada que você vê acima.
Como você pode ver no primeiro slide, um nó com tecnologia Instinct MI250 tem CPUs e GPUs separadas, com uma única CPU EPYC no meio para coordenar as cargas de trabalho.
Em contraste, o Instinct MI300 contém um processador EPYC Genoa de quarta geração de 24 núcleos integrado dentro do pacote, removendo assim uma CPU autônoma da equação. No entanto, a mesma topologia geral permanece, sem a CPU autônoma, permitindo uma topologia completa totalmente conectada com quatro elementos. Esse tipo de conexão permite que todos os processadores se comuniquem diretamente entre si, sem que outra CPU ou GPU sirva como intermediário para retransmitir dados para os outros elementos, reduzindo assim a latência e a variabilidade. Esse é um ponto problemático em potencial com a topologia do MI250. O mapa de topologia do MI300 também indica que cada chip possui três conexões, assim como vimos com o MI250. Os slides da Papermaster também se referem aos interpositores ativos que formam as matrizes de base como a ” matriz de base de tecido infinito de quarta geração”.
Como você pode ver no restante desses slides, o MI300 colocou a AMD em um caminho claro para exceder suas metas de eficiência de 30X25, além de superar a tendência de energia do setor. Também mostramos algumas fotos do silício Instinct MI300 que vimos em primeira mão, mas abaixo vemos como o MI300 fica dentro de uma lâmina real que será instalada no El Capitan.
AMD Instinct MI300 em El Capitan
No ISC 2023, Bronis R. de Supinski, CTO do Lawrence Livermore National Laboratory (LLNL), falou sobre a integração das APUs Instinct MI300 no supercomputador El Capitan. A Administração Nacional de Segurança Nuclear (NNSA) usará o El Capitan para promover usos militares da tecnologia nuclear.
Como você pode ver na primeira imagem do álbum acima, Supinski mostrou uma única lâmina para o sistema El Capitan. Este blade, fabricado pelo fornecedor de sistemas HPE, possui quatro placas Instinct MI300 refrigeradas a líquido em um chassi fino de 1U. Supinksi também mostrou uma foto do laboratório da AMD em Austin, onde eles trabalham com o silício MI300, mostrando assim que os chips são reais e já estão sendo testados – um ponto-chave a ser considerado, considerando alguns dos recentes erros com os sistemas baseados na Intel.
Supinksi costumava se referir ao MI300 como “MI300A”, mas não temos certeza se esse é um modelo personalizado para El Capitan ou um número de produto mais formal.
Supinski disse que o chip vem com um Infinity Cache, mas não especificou a capacidade disponível. Supinski também citou várias vezes a importância da camada de memória única, observando como o espaço de memória unificado simplifica a programação, pois reduz as complexidades da movimentação de dados entre diferentes tipos de computação e diferentes pools de memória.
Supinski observa que o MI300 pode ser executado em vários modos diferentes, mas o modo principal consiste em um único domínio de memória e um domínio NUMA, fornecendo assim memória de acesso uniforme para todos os núcleos de CPU e GPU. A principal conclusão é que a memória coerente com o cache reduz a movimentação de dados entre a CPU e a GPU, que geralmente consome mais energia do que a própria computação, reduzindo assim a latência e melhorando o desempenho e a eficiência energética. Supinksi também diz que foi relativamente fácil portar o código do supercomputador Sierra para o El Capitan.
O restante dos slides de Supinski inclui informações que a AMD já divulgou, incluindo projeções de desempenho de 8 vezes o desempenho da IA e 5 vezes o desempenho por watt do MI250X.
A HPE está construindo o sistema El Capitan com base em sua arquitetura Shasta e interconexão de rede Slingshot-11. Esta é a mesma plataforma que alimenta os outros supercomputadores exascale do DOE, o Frontier, o supercomputador mais rápido do mundo, e o frequentemente atrasado Aurora, alimentado por silício da Intel.
A NNSA teve que construir mais infraestrutura para operar o supercomputador Sierra e o El Capitan simultaneamente. Esse trabalho incluiu o reforço do fornecimento de energia dedicado à computação de 45 MW para 85 MW. Um adicional de 15 MW de energia está disponível para o sistema de resfriamento, que foi atualizado para 28.000 toneladas com a adição de uma nova torre de resfriamento de 18.000 toneladas. Isso dá ao local um total de 100 MW de energia, mas El Capitan deve consumir menos de 40 MW, embora o valor real possa ser de cerca de 30 MW – os números finais não serão conhecidos até a implantação.
O El Capitan será o primeiro Sistema de Tecnologia Avançada (ATS) que usa o Tri-lab Operating System Software (TOSS) personalizado da NNSA, uma pilha completa de software construída no RHEL.
Programa El Capitan’s Rabbit para Armazenamento
O LLNL está usando sistemas ‘EAS3’ menores para testar o software que será implantado no El Capitan quando ele se tornar operacional ainda este ano. O LLNL já está testando novos módulos Rabbit que hospedarão uma infinidade de SSDs para armazenamento local próximo ao nó. Acima, você pode ver os diagramas de blocos desses nós, mas esteja ciente de que eles não usam os aceleradores MI300 — em vez disso, eles têm processadores de servidor EPYC padrão para orquestração de armazenamento e tarefas de análise de dados. Esses nós rápidos parecem servir como buffers de rajada que absorvem grandes quantidades de dados recebidos rapidamente, que serão embaralhados para o sistema de armazenamento em massa mais lento.
Linha do tempo AMD Instinct MI300
Com o desenvolvimento continuando em uma cadência previsível, está claro que o El Capitan está bem encaminhado para estar operacional ainda este ano. O MI300 abre um novo caminho para as ofertas de computação de alto desempenho da AMD, mas a AMD nos diz que esses chips halo MI300 serão caros e relativamente raros – não são um produto de alto volume, portanto, não terão ampla implantação como o EPYC CPUs do centro de dados Genoa. No entanto, a tecnologia filtrará várias variantes em diferentes fatores de forma.
Este chip também competirá com o Grace Hopper Superchip da Nvidia, que é a combinação de uma GPU Hopper e a CPU Grace na mesma placa. Esses chips devem chegar ainda este ano. As CPUs Grace baseadas em Neoverse suportam o conjunto de instruções Arm v9, e os sistemas vêm com dois chips fundidos com a nova tecnologia de interconexão NVLink-C2C da Nvidia. A abordagem da AMD foi projetada para oferecer rendimento e eficiência de energia superiores, já que a combinação desses dispositivos em um único pacote geralmente permite maior rendimento entre as unidades do que quando conectado a dois dispositivos separados.
O MI300 também deveria competir com o Falcon Shores da Intel, um chip que foi inicialmente projetado para apresentar um número variável de ladrilhos de computação com núcleos x86, núcleos de GPU e memória em várias configurações possíveis. A Intel recentemente os atrasou para 2025 e redefiniu os chips para apresentar apenas uma arquitetura de GPU e IA – eles agora não terão núcleos de CPU. Com efeito, isso deixa a Intel sem um concorrente direto para o Instinct MI300.
Dada a data de inicialização do El Capitan que se aproxima rapidamente e a reputação da AMD de concluir os supercomputadores a tempo, podemos esperar que a AMD comece a compartilhar muito mais informações sobre suas APUs Instinct Mi300 em breve. A AMD sediará o evento de transmissão ao vivo Next-Generation Data Center e AI Technology da empresa em 13 de junho, e esperamos aprender mais lá. Nós vamos ter a certeza de trazer a você o mais recente desse evento quando ele chegar.