A Inflection AI, uma nova startup encontrada pelo ex-chefe da mente profunda e apoiada pela Microsoft e Nvidia, levantou na semana passada US$ 1,3 bilhão de pesos pesados da indústria em dinheiro e crédito na nuvem. Parece que a empresa usará o dinheiro para construir um cluster de supercomputador alimentado por até 22.000 GPUs de computação H100 da Nvidia, que terão desempenho teórico de potência de computação comparável ao do supercomputador Frontier.
“Estaremos construindo um cluster de cerca de 22.000 H100s”, disse Mustafa Suleyman, fundador da DeepMind e cofundador da Inflection AI. Reuters. “Isso representa aproximadamente três vezes mais computação do que foi usado para treinar todo o GPT-4. Velocidade e escala são o que realmente nos permitirá criar um produto diferenciado.”
Um cluster alimentado por 22.000 GPUs de computação Nvidia H100 é teoricamente capaz de 1.474 exaflops de desempenho FP64 – isso usando os núcleos Tensor. Com o código FP64 geral em execução nos núcleos CUDA, o throughput de pico é apenas a metade: 0,737 FP64 exaflops. Enquanto isso, o supercomputador mais rápido do mundo, Fronteira, tem desempenho de computação de pico de 1,813 FP64 exaflops (o dobro disso para 3,626 exaflops para operações de matriz). Isso coloca o novo computador planejado em segundo lugar por enquanto, embora possa cair para o quarto depois que El Capitan e Aurora ficarem totalmente online.
Embora o desempenho do FP64 seja importante para muitas cargas de trabalho científicas, esse sistema provavelmente será muito mais rápido para tarefas orientadas à IA. A taxa de transferência máxima de FP16/BF16 é de 43,5 exaflops e dobra para 87,1 exaflops para taxa de transferência de FP8. O supercomputador Frontier equipado com 37.888 unidades do Instinct MI250X da AMD tem taxa de transferência máxima de BF16/FP16 de 14,5 exaflops.
O custo do cluster é desconhecido, mas tendo em mente que as GPUs de computação H100 da Nvidia custam mais de US$ 30.000 por unidade, esperamos que as GPUs do cluster custem centenas de milhões de dólares. Adicione todos os servidores de rack e outros hardwares e isso representaria a maior parte do financiamento de US$ 1,3 bilhão.
A Inflection AI está atualmente avaliada em cerca de US$ 4 bilhões, cerca de um ano após sua fundação. Seu único produto atual é um chatbot geracional de IA chamado Pi, abreviação de inteligência pessoal. O Pi foi projetado para servir como um assistente pessoal alimentado por IA com tecnologia de IA generativa semelhante ao ChatGPT que dará suporte ao planejamento, agendamento e coleta de informações. Isso permite que o Pi se comunique com os usuários por meio do diálogo, possibilitando que as pessoas façam perguntas e ofereçam feedback. Entre outras coisas, o Inflection AI delineou objetivos específicos de experiência do usuário para Pi, como oferecer suporte emocional.
Atualmente, a Inflection AI opera um cluster baseado em 3.584 GPUs de computação Nvidia H100 na nuvem do Microsoft Azure. O cluster de supercomputação proposto ofereceria aproximadamente seis vezes o desempenho da atual solução baseada em nuvem.