A Nvidia apresentou sua próxima CPU Grace baseada em Arm no GTC 2023, mas o anúncio da empresa de que os sistemas serão lançados no segundo semestre deste ano representa um atraso em relação ao cronograma de lançamento original que visava o primeiro semestre de 2023. Perguntamos ao CEO da Nvidia, Jensen Huang sobre o atraso durante uma sessão de perguntas e respostas para a imprensa hoje, que abordaremos abaixo. A Nvidia também mostrou seu silício Grace pela primeira vez e fez várias novas reivindicações de desempenho durante sua palestra GTC, incluindo que seus chips Grace baseados em Arm são até 1,3 vezes mais rápidos que os concorrentes x86 com 60% da energia, o que iremos também cobre.
Perguntei a Jensen Huang sobre o atraso na entrega dos sistemas Grace CPU e Grace Hopper Superchip ao mercado final. Depois que ele adiou de brincadeira a data de lançamento esperada (é era (abre em nova aba) 1H23 (abre em nova aba), agora 2H23 (abre em nova aba)), ele respondeu:
“Bem, primeiro, posso dizer que Grace e Grace Hopper estão em produção. E, portanto, o silício está voando pela fábrica agora. Os sistemas estão sendo feitos e fizemos muitos anúncios. Os OEMs e fabricantes de computadores do mundo estão construindo eles.”
Como você pode ver, a resposta dele não aborda diretamente o atraso. A definição atual de sistemas de remessa pode ser confusa — os primeiros sistemas da AMD e da Intel geralmente são enviados para hiperescaladores para implantação muito antes de os chips terem disponibilidade geral de prateleira. No entanto, embora a Nvidia diga que está testando chips para os clientes, ela ainda não disse que o Grace está sendo implantado na produção. Como tal, os chips estão atrasados de acordo com as projeções da empresa, mas, para ser justo, lançamentos de chips perenemente atrasados de empresas como a Intel não são incomuns. Isso destaca a dificuldade de lançar um novo chip, mesmo ao construir em torno dos chips x86 dominantes com plataformas de hardware e software estabelecidas construídas por décadas.
Em contraste, os chips Grace e Grace+Hopper da Nvidia são um repensar básico de muitos dos aspectos fundamentais do design do chip com uma nova e inovadora interconexão chip a chip. O uso do conjunto de instruções Arm pela Nvidia também significa que há um aumento mais pesado para otimizações e portabilidade de software, e a empresa tem uma plataforma totalmente nova para construir.
Jensen aludiu a um pouco disso em sua resposta estendida, dizendo: “Começamos com Superchips em vez de chiplets porque as coisas que queremos construir são muito grandes, e ambos estão em produção hoje. Portanto, os clientes estão sendo testados, o software está sendo portado para ele, e estamos fazendo muitos testes. Durante a palestra, mostrei alguns números e não queria sobrecarregar a palestra com muitos números, mas um monte de números estará disponível para as pessoas aproveitarem. Mas o desempenho foi realmente fantástico.”
E as afirmações da Nvidia são impressionantes. Por exemplo, no álbum acima, você pode ver o chip Grace Hopper que a Nvidia mostrou ao vivo pela primeira vez no GTC (mais detalhes técnicos aqui).
Durante a apresentação, Huang afirmou que os chips são 1,2 vezes mais rápidos do que o chip de servidor x86 de próxima geração ‘médio’ em um benchmark de uso intensivo de memória HiBench Apache Spark e 1,3 vezes mais rápido em um benchmark de comunicação de microsserviços do Google, enquanto atrai apenas 60% de o poder.
A Nvidia afirma que isso permite que os datacenters implantem 1,7 vezes mais servidores Grace em parcelas com limitação de energia, cada uma fornecendo uma taxa de transferência 25% maior. A empresa também afirma (abre em nova aba) O Grace é 1,9 vezes mais rápido em cargas de trabalho de dinâmica de fluidos computacional (CFD).
No entanto, embora os chips Grace sejam de alto desempenho e eficientes em algumas cargas de trabalho, a Nvidia não os visa ao mercado de servidores de uso geral. Em vez disso, a empresa adaptou os chips para casos de uso específicos, como IA e cargas de trabalho em nuvem que favorecem desempenho superior de processamento de memória e single-thread em conjunto com excelente eficiência de energia.
“[..]quase todos os data centers agora têm alimentação limitada e projetamos o Grace para ter um desempenho extraordinário em um ambiente com limitação de energia”, Huang nos disse em resposta às nossas perguntas. “E, nesse caso, você deve ter um desempenho realmente alto , e você tem que ter muito pouca energia e ser incrivelmente eficiente. E assim, o sistema Grace é cerca de duas vezes mais eficiente em termos de energia/desempenho em comparação com os melhores CPUs de última geração.”
“E foi projetado para diferentes pontos de design, o que é muito compreensível”, continuou Huang. “Por exemplo, o que acabei de descrever não é importante para a maioria das empresas. É muito importante para os provedores de serviços em nuvem e é muito importante para data centers com alimentação ilimitada.”
A eficiência energética está se tornando uma preocupação maior do que nunca, com chips como o AMD EPYC Genoa que analisamos recentemente e o Sapphire Rapids da Intel agora chegando a 400 e 350 watts, respectivamente. Isso requer novas soluções exóticas de refrigeração a ar para conter o prodigioso consumo de energia nas configurações padrão e refrigeração líquida para as opções de mais alto desempenho.
Em contraste, o menor consumo de energia de Grace tornará os chips mais tolerantes ao resfriamento. Conforme revelado pela primeira vez na GTC, o pacote Grace de 144 núcleos da Nvidia tem 5″ x 8″ e pode caber em módulos resfriados passivamente que são surpreendentemente compactos. Esses módulos ainda contam com resfriamento a ar, mas dois podem ser resfriados a ar em um único chassi fino de 1U.
A Nvidia também mostrou seu silício Grace Hopper Superchip pela primeira vez na GTC. O Superchip combina a CPU Grace com uma GPU Hopper no mesmo pacote. Como você pode ver no álbum acima, dois desses módulos também podem caber em um único chassi de servidor. Você pode ler os detalhes detalhados sobre esse design aqui.
A grande vantagem desse design é que a coerência de memória CPU+GPU aprimorada, alimentada por uma conexão chip-a-chip de baixa latência que é sete vezes a velocidade da interface PCIe, permite que a CPU e a GPU compartilhem informações mantidas na memória. a uma velocidade e eficiência impossíveis com projetos anteriores.
Huang explicou que essa abordagem é ideal para IA, bancos de dados, sistemas de recomendação e modelos de linguagem grande (LLM), todos com uma demanda incrível. Ao permitir que a GPU acesse a memória da CPU diretamente, as transferências de dados são otimizadas para aumentar o desempenho.
Os chips Grace da Nvidia podem estar um pouco atrasados, mas a empresa tem vários parceiros, como Asus, Atos, Gigabyte, HPE, Supermicro, QCT, Wiston e Zt, todos preparando sistemas OEM para o mercado. Esses sistemas agora são esperados no segundo semestre do ano, mas a Nvidia não disse se eles virão ou não no início ou no final do segundo semestre.