O estande da Phison no GTC 2024 trouxe uma surpresa inesperada: a empresa demonstrou uma única estação de trabalho com quatro GPUs usando SSDs e DRAM para expandir o espaço de memória efetivo para cargas de trabalho de IA, permitindo executar uma carga de trabalho que normalmente requer 1,4 TB de VRAM espalhados por 24 horas por dia. GPU. A nova plataforma aiDaptiv+ da empresa foi projetada para reduzir as barreiras do treinamento AI LLM, empregando DRAM e SSDs de sistema para aumentar a quantidade de GPU VRAM disponível para treinamento, o que Phison diz que permitirá aos usuários realizar intensas cargas de trabalho de treinamento generativo de IA em uma fração do custo de usar apenas GPUs padrão, embora trocando o menor custo de entrada por desempenho reduzido e, portanto, tempos de treinamento mais longos.
A vantagem para as empresas que usam esse tipo de implantação é que elas podem reduzir custos, evitar a escassez esmagadora de GPU que continua a atormentar a indústria e também usar modelos de código aberto que treinam no local, permitindo-lhes manter dados privados confidenciais internamente. Phison e seus parceiros direcionam a plataforma para pequenas e médias empresas e outros usuários que não estão tão preocupados com os tempos gerais de treinamento do LLM, mas que poderiam se beneficiar do uso de modelos pré-treinados prontos para uso e do treinamento deles em seus próprios conjuntos de dados privados.
A demonstração da empresa serviu como uma forte prova da tecnologia, mostrando uma única estação de trabalho com quatro GPUs Nvidia RTX 6000 Ada A100 executando um modelo de 70 bilhões de parâmetros. Modelos maiores de IA são mais precisos e oferecem melhores resultados, mas Phison estima que um modelo desse tamanho normalmente requer cerca de 1,4 TB de VRAM espalhados por 24 GPUs de IA espalhadas por seis servidores em um rack de servidores – e toda a rede e hardware de suporte necessários.
A solução adDaptiv+ da Phison usa uma biblioteca de software de middleware que “corta” camadas do modelo de IA da VRAM que não estão sendo computadas ativamente e as envia para a DRAM do sistema. Os dados podem então permanecer na DRAM, se necessário mais cedo, ou podem ser descarregados para SSDs se tiverem uma prioridade mais baixa. Os dados são então recuperados e movidos de volta para a VRAM da GPU para tarefas de computação conforme necessário, com a camada recém-processada sendo descarregada para a DRAM e SSD para abrir espaço para a próxima camada ser processada.
Phison conduziu sua demonstração com Nova estação de trabalho Pro AI da Maingear. Este sistema de demonstração vem equipado com um processador Xeon w7-3445X, 512 GB de memória DDR5-5600 e dois SSDs Phison especializados de 2 TB (mais sobre isso abaixo). No entanto, eles vêm em vários sabores, variando de US$ 28.000 com uma GPU a US$ 60.000 para um sistema com quatro GPUs. Naturalmente, isso é uma fração do valor necessário para reunir seis ou oito servidores de treinamento de GPU com toda a rede necessária. Além disso, esses sistemas funcionarão em um único circuito de 15A, enquanto um rack de servidor exigiria uma infraestrutura elétrica muito mais robusta.
Maingear é o principal parceiro de hardware da Phison para a nova plataforma, mas a empresa também tem muitos outros parceiros, incluindo MSI, Gigabyte, ASUS e Deep Mentor, que também oferecerão soluções para a nova plataforma.
Os novos SSDs aiDaptiveCache ai100E da Phison vêm no formato M.2 padrão, mas são especialmente projetados para armazenar cargas de trabalho em cache. Phison ainda não está compartilhando detalhes detalhados desses SSDs, mas sabemos que eles usam flash SLC para melhorar o desempenho e a resistência. As unidades são classificadas para 100 gravações por dia durante cinco anos, o que é excepcionalmente duradouro em comparação com SSDs padrão.
Como você pode ver nos slides acima, o middleware aiDaptive fica abaixo da camada Pytorch/Tensor Flow. Phison diz que o middleware é transparente e não requer modificação dos aplicativos de IA.
Realizar esse tipo de sessão de treinamento com uma única estação de trabalho obviamente reduzirá drasticamente os custos, mas isso prejudica o desempenho. Phison prevê que essa configuração única é seis vezes menor do que o custo de treinamento de um modelo grande com 30 GPUs espalhadas por oito nós, mas os modelos levarão cerca de quatro vezes mais para serem treinados. A empresa também oferece uma opção de expansão que une quatro nós por um pouco mais da metade do custo, o que reduz o tempo de treinamento para um modelo 70B para 1,2 horas, em oposição a 0,8 horas com o sistema de 30 GPU.
A mudança marca a expansão da Phison de seu modelo padrão de criação de controladores e retimers SSD para o fornecimento de novas soluções híbridas de software e hardware que melhoram a acessibilidade do treinamento AI LLM, reduzindo enormemente os custos gerais da solução. Phison tem vários parceiros para lançar no mercado sistemas para o novo software e esperamos ver mais anúncios nos próximos meses. Como sempre, a prova de desempenho estará em benchmarks de terceiros, mas com os sistemas agora filtrando para os clientes da Phison, provavelmente não demorará muito para vermos alguns exemplos do mundo real.