A Intel revelou seu primeiro tecido fotônico direto mesh-to-mesh no Hot Chips 2023, destacando seu progresso em direção a um futuro de interconexões ópticas chip-to-chip, mas o chip de oito núcleos e 528 threads que usou para a demonstração roubou os holofotes devido à sua arquitetura exclusiva que possui 66 threads por núcleo para permitir até 1 TB/s de taxa de transferência de dados.
O chip PUMA (Programmable Unified Memory Architecture) da Intel faz parte do programa DARPA HIVE que se concentra em melhorar o desempenho em trabalhos de análise gráfica em escala de petabytes para desbloquear uma melhoria de 1000X no desempenho por watt nessas cargas de trabalho hiperesparsas. Surpreendentemente, o chip consome apenas 75W de energia, com aproximadamente 60% da energia sendo usada pelas interconexões ópticas, mas o design poderia eventualmente permitir que sistemas com dois milhões de núcleos fossem conectados diretamente com latência inferior a 400ns.
Surpreendentemente para uma empresa centrada em x86 como a Intel, o chip de teste utiliza uma arquitetura RISC personalizada para desempenho simplificado em cargas de trabalho de análise gráfica, proporcionando uma melhoria de 8X no desempenho de thread único. Depois de caracterizar as cargas de trabalho alvo, a Intel concluiu que precisava criar uma arquitetura que resolvesse os desafios associados ao estresse extremo no subsistema de memória, pipelines profundos, preditores de ramificação e lógica fora de ordem criada pela carga de trabalho.
O núcleo personalizado da Intel emprega extremo paralelismo com 66 threads de hardware para cada um dos oito núcleos, grandes caches L1 de instruções e dados e 4 MB de SRAM de scratchpad por núcleo. O chip de oito núcleos possui 32 portas de E/S ópticas que operam a 32 GB/s/dir cada, totalizando 1 TB/s de largura de banda total. Os chips são colocados em um suporte de servidor OCP de oito soquetes, oferecendo até 16 TB/s de taxa de transferência óptica total para o sistema, e cada chip é alimentado por 32 GB de DRAM DDR5-4000 personalizada.
A Intel fabricou o chip no processo de 7 nm da TSMC com 27,6 bilhões de transistores abrangendo uma matriz de 316 mm ^ 2. Os oito núcleos, que consomem 1,2 bilhão de transistores, ficam no centro da matriz, flanqueados por oito controladores de memória personalizados com granularidade de acesso de 8 bytes. Os roteadores de comunicação preenchem o centro “vazio” do chip.
O chip também possui quatro chips de E/S óptica de oito canais de alta velocidade, dois na parte superior e inferior da matriz, que conectam os sinais elétricos internos às interconexões ópticas externas. Essas unidades são conectadas por meio do pacote EMIB da Intel e usam o protocolo AIB. O chip também possui uma conexão PCIe 4.0 x8 para se comunicar com o sistema host.
Mover a incrível quantidade de dados gerados por 528 threads ao redor da matriz requer uma interconexão otimizada, então a Intel projetou uma malha 2D na matriz com 16 roteadores para embaralhar os dados entre os núcleos, controladores de memória e interconexões fotônicas de silício (oito roteadores são integrados em os núcleos da CPU, enquanto seis roteadores são inteiramente dedicados apenas à movimentação de dados).
Como você pode ver no álbum acima, os conectores fotônicos estão integrados ao pacote do chip e ficam pendurados nas laterais do chip para ligação externa a outros chips. O chip está conectado a uma rede óptica externa ‘HyperX’ que fornece conexões completas para os núcleos de processamento individuais. Esta rede incrível permite que até dois milhões de núcleos sejam conectados diretamente com latência inferior a 400ns.
O resultado final é impressionante – o chip consome apenas 75 W, com 59% desse orçamento dedicado à fotônica de silício e 21% dedicado aos núcleos. A Intel afirma que o desempenho aprimorado da rede óptica permite um dimensionamento de desempenho linear quase perfeito de um a 1.000 núcleos.
A promessa de interconexões ópticas alimentou uma quantidade cada vez maior de pesquisas à medida que a indústria busca futuros métodos de transporte de dados que ofereçam características superiores de largura de banda, latência e consumo de energia em comparação com as técnicas tradicionais de comunicação chip a chip. Embora as implementações convencionais de interconexões de chips ópticos permaneçam no horizonte, implementações especializadas, como as defendidas pela Intel, Nvidia e Ayar Labs, estão quase prontas para implementações em grande escala num futuro próximo.