da Índia Centro de Desenvolvimento de Computação Avançada (C-DAC) essa semana anunciou[PDF] a primeira CPU de computação de alto desempenho (HPC) autoprojetada do país. Nomeado Aum, o primeiro chip da Índia é um design de chiplet que pode ser dimensionado para até 96 núcleos e é baseado nos designs v8.4 “Zeus” Neoverse V1 da Arm (os mesmos que a AWS usa em seu Graviton3) e deve chegar ao mercado como no início de 2024 no processo de 5 nm da TSMC.
A Aum foi desenvolvida como parte de sua Missão Nacional de Supercomputação, um programa que visa reduzir a exposição da Índia a possíveis restrições de exportação. Para isso, o objetivo é implantar uma arquitetura de processador desenvolvida nacionalmente. Talvez de forma alarmante para a Intel e a AMD, no entanto, o objetivo é que o Aum seja utilizável em cenários de computação de alto desempenho, bem como em chips de computação pessoal. E onde existe Aum, o mercado é menor.
O raciocínio é simples: se a Índia tem a capacidade de projetar chips (seja para misturar e combinar peças do portfólio aberto da Arm ou orientar implementações específicas para o design final e fabricável), as possíveis restrições de exportação tecnológica poderiam ser um pouco menores. Ao mesmo tempo, a Missão Nacional de Computação também visa melhorar a segurança contra eventuais backdoors; um provedor de design neutro como a Arm naturalmente se encaixa nessas preocupações. E embora o controle do processo de design em si não o leve até lá (não quando backdoors podem ser aplicados no chão de fábrica por adversários dispostos e capazes), é um bom começo. O uso planejado de software de código aberto para sustentar um ecossistema de software especializado também pinta um futuro de software mais diversificado, de modo que o hardware não é o único segmento que provavelmente se fragmentará, com tempo suficiente.
Os chiplets A48Z no coração do chip Aum de 96 núcleos apresentam cada um 48 núcleos Arm Zeus (3 GHz base, 3,5 GHz Turbo), suportados por 96 MB de cache L2 de acesso imediato e outra camada de cache de 96 MB armazenando os núcleos e o memória adicional do sistema. Ao todo, cada pacote Aum suporta até 16 canais de memória DDR5 (a 5200 MHz, oferecendo 332,8 GB/s de largura de banda) e 64 GB de memória HBM3 (estoque de 6,4 GHz, reduzido para 5,6 GHz no lançamento inicial para impressionantes 2,87 TB/s). A taxa de transferência de bytes adicional é adicionada pelas 128 pistas PCIe Gen 5, 64 das quais permitem aceleradores adicionais (como aceleradores GPU ou FPGA).
Os 64 restantes provavelmente são roteados para a estrutura de comunicação interna do chip, uma rede de malha coerente de estilo NUMA, links totalmente coerentes com a memória com base no protocolo CCIX. Esse link é usado por dois soquetes Aum para se comunicar e requer uma ou duas páginas de design do Infinity Fabric da AMD.
De acordo com a documentação, o projeto de Aum visa principalmente aumentar a quantidade de largura de banda de memória disponível por flop de poder de computação (a proporção byte/flop), que foi considerada um fator altamente limitante no escalonamento de desempenho para computação HPC. Muitos carros (operações flutuantes por segundo) em poucas pistas (taxa de transferência de memória) só podem terminar em um sentido. O resultado é que Aum e sua arquitetura Arm têm como meta o desempenho de 4,6 teraflops por soquete e 3 TB/s de largura de banda de memória agregada. Isso lhe dará uma proporção byte/flop de 0,7, muito maior do que os 0,38 atingidos pelo supercomputador Arm mais rápido do mundo, o Fugaku do Japão, e superando decisivamente o IBM dos EUA e o Summit baseado em Nvidia (<0,2 bytes/flop). Em um TDP esperado de 300 W, no entanto, parece que a eficiência energética realmente diminuiu em comparação com os núcleos A64FX Arm da Fugaku.
Se tudo correr conforme o planejado, a CPU Aum Arm da Índia será uma forte entrada no campo da supercomputação. Crucialmente, será um jogo caseiro – mesmo que não seja dramaticamente, pelo menos em suas primeiras iterações. Muito trabalho foi claramente colocado no avanço do subsistema de memória como um todo e, em geral, a memória é mais fácil e mais disponível para fonte do que os chips TSMC de 5 nm Aum serão feitos. Personalizar o próprio núcleo da CPU pode ser o próximo passo do C-DAC, preparando o caminho para a Índia e adicionando impulso ao processo de “nacionalização do chip” em outros países. A propósito, a China também teve interesse em Arm; mas essa é uma história totalmente diferente.
Esse impulso mais amplo para um ecossistema de chips mais variado é parte do motivo pelo qual a Intel decidiu reinvestir em seu negócio de chips para clientes Foundry, um movimento que sua rival AMD fez anos atrás (enquanto estava em meio a uma de suas reestruturações corporativas mais difíceis de todos os tempos). . E é mais uma vitória para o ecossistema Arm em comparação com sua alternativa x86 às vezes problemática, que em si também pune alguns com mais força do que outros.
Também é, talvez, um sinal do que está por vir quando se trata de volumes de remessa para fabricantes de semicondutores: cada vez mais entidades estão lançando e recebendo seus projetos das águas da TSMC, mas há apenas tantos wafers para todos os compradores – e migalhas de lutas de volume já estão sujando o chão.
O conjunto de slides completo segue.