Ainda estamos seguindo o anúncio oficial da AMD de seu acelerador de datacenter AI, o MI300X. É certamente uma força de processamento a ser reconhecida – uma que a AMD pretende usar como um porrete para tentar desalojar a Nvidia de sua posição como jogador dominante no mundo da aceleração de IA. Mas o aumento do desempenho às vezes se traduz em maior consumo de energia, apesar de cada nova arquitetura geralmente melhorar a eficiência de energia (consumindo menos energia para a mesma unidade de trabalho). E o baseado em OAM (OCP Accelerator Module) da AMD – o MI300X – é certamente um grande consumidor de energia: com 750 W, é na verdade o produto com o TDP mais alto de todos os tempos em seu fator de forma. Mas não se preocupe: as especificações para soluções OAM vão até 1.000 W de potência disponível, então ainda há espaço para escalar ainda mais o desempenho.
Embora 750 W seja uma quantidade flagrante de energia a ser consumida por qualquer peça individual de hardware de PC (pelo menos da perspectiva de um indivíduo), temos que ter em mente que esses watts estão alimentando um hardware muito mais rápido e especializado do que até mesmo as placas gráficas mais poderosas da AMD. Para essa potência, a AMD está oferecendo o que afirma ser o acelerador de melhor desempenho para cargas de trabalho relacionadas à IA (tanto em IA generativa quanto em modelo de linguagem grande [LLM] em processamento).
Considerando como a AMD conseguiu amontoar 12 chiplets construídos em dois processos de fabricação (8x 5nm [GPU] e 4x nós de 6 nm [I/O die] para um total de 153 bilhões de transistores, essa afirmação pode ter algum apoio. Claro, há também a questão de que a AMD conseguiu rodar um modelo LLM de 40 bilhões de parâmetros (Falcon 40-B) no topo de um único MI300X. Agora isso é impressionante, especialmente considerando que a AMD pretende que o MI300X seja dimensionado para até oito aceleradores em um único pacote.
Linha 0 – Célula 0 | AMD MI300X | AMD MI300A | AMD MI250X | AMD RX 7900 XTX |
núcleos da CPU | 0 | 3x CCD de 8 núcleos (24 núcleos) [Zen 4] | – | – |
núcleos de GPU | 8x GCD (304 UCs) [CDNA 3] | 6x GCD (228 UCs) [CDNA 3] | (220 UCs) [CDNA 2] | (RDNA 3) |
Memória Endereçável | 192 GB (8x 24 GB HBM3) | 128 GB (8x 16 GB HBM3) | 128 GB (8x 16 GB HBM2e) | 24 GB GDDR5 |
Largura de banda de memória | 5,2 TB/s | 5,2 TB/s | ~ 3,28 TB/s | 384 GB/s |
Largura de banda do tecido infinito | 896 GB/s | 896 GB/s | 800 GB/s | – |
Contagem de transistores | 153 bilhões | 146 bilhões | ~ 58,2 bilhões | ~ 57 bilhões |
TDP | 750 W | ? | 560 W | 355 W |
Como podemos ver na tabela acima, o foco da AMD no aumento da eficiência de energia não foi suficiente para compensar os crescentes requisitos de computação para cenários de computação de alto desempenho (HPC), que agora incluem o processamento de modelos LLM que parecem estar surgindo para a esquerda e para a direita . Os requisitos de desempenho aumentados significam que, mesmo com as mais recentes tecnologias e técnicas de economia de energia da AMD, e a mais recente tecnologia de fabricação da TSMC, ainda havia a necessidade de um aumento de 190 W no envelope de energia.
Mas esse aumento de 190 W TDP (cerca de 33% maior consumo de energia) se traduz em aproximadamente três vezes os transistores sendo alimentados em comparação com o MI250X – uma demonstração impressionante de ganhos de eficiência, mesmo sem considerar o suporte aprimorado do MI300X para algoritmos esparsos (incrivelmente importante para processamento LLM e AI). Isso não quer dizer nada sobre a diferença entre os aceleradores de computação da AMD e a principal GPU de jogos da empresa, a comparativamente insignificante RX 7900 XTX.