Depois que as empresas chinesas perderam o acesso às GPUs de computação de ponta A100 e H100 da Nvidia, que podem ser usadas para treinar vários modelos de IA, elas tiveram que encontrar maneiras de treiná-las sem usar o hardware mais avançado. Para compensar a falta de GPUs poderosas, os desenvolvedores chineses de modelos de IA estão simplificando seus programas para reduzir os requisitos e usando todo o hardware de computação que podem obter em combinação, o Wall Street Journal relatórios.
A Nvidia não pode vender suas GPUs de computação A100 e H100 para entidades chinesas como Alibaba ou Baidu sem obter uma licença de exportação do Departamento de Comércio dos EUA (e qualquer aplicativo quase certamente seria negado). Portanto, a Nvidia desenvolveu os processadores A800 e H800 que oferecem desempenho reduzido e vêm com recursos NVLink deficientes, o que limita a capacidade de construir sistemas multi-GPU de alto desempenho tradicionalmente necessários para treinar modelos de IA em larga escala.
Por exemplo, o modelo de linguagem em grande escala por trás do ChatGPT da OpenAI requer de 5.000 a 10.000 GPUs A100 da Nvidia para treinar, de acordo com estimativas de analistas do UBS, relata o WSJ. Como os desenvolvedores chineses não têm acesso aos A100s, eles usam A800 e H800 menos capazes em combinação para obter algo semelhante ao desempenho das GPUs de alto desempenho da Nvidia, de acordo com Yang You, professor da Universidade Nacional de Cingapura e fundador da HPC -AI Tech. Em abril, a Tencent introduziu um novo cluster de computação usando os H800s da Nvidia para treinamento de modelos de IA em grande escala. Essa abordagem pode ser cara, pois as empresas chinesas podem precisar de três vezes mais H800s, já que suas contrapartes americanas exigiriam H100s para resultados semelhantes.
Devido aos altos custos e à incapacidade de obter fisicamente todas as GPUs de que precisam, as empresas chinesas desenvolveram métodos para treinar modelos de IA em grande escala em diferentes tipos de chips, algo que as empresas americanas raramente fazem devido a desafios técnicos e preocupações de confiabilidade. Por exemplo, empresas como Alibaba, Baidu e Huawei exploraram o uso de combinações de A100s, V100s e P100s da Nvidia e Ascends da Huawei, de acordo com trabalhos de pesquisa revisados pelo WSJ.
Embora existam inúmeras empresas na China desenvolvendo processadores para cargas de trabalho de IA, seu hardware não é suportado por plataformas de software robustas como o CUDA da Nvidia, e é por isso que as máquinas baseadas em tais chips são supostamente “propensas a esmagamento”.
Além disso, as empresas chinesas também têm sido mais agressivas na combinação de várias técnicas de software para reduzir os requisitos computacionais de treinamento de modelos de IA em larga escala, uma abordagem que ainda precisa ganhar força globalmente. Apesar dos desafios e aperfeiçoamentos contínuos, os pesquisadores chineses observaram algum sucesso nesses métodos.
Em um artigo recente, os pesquisadores da Huawei demonstraram o treinamento de seu modelo de linguagem grande de última geração, PanGu-Σ, usando apenas processadores Ascend e sem GPUs de computação Nvidia. Embora houvesse algumas deficiências, o modelo alcançou desempenho de ponta em algumas tarefas de língua chinesa, como compreensão de leitura e testes de gramática.
Os analistas alertam que os pesquisadores chineses enfrentarão maiores dificuldades sem acesso ao novo chip H100 da Nvidia, que inclui um recurso adicional de aprimoramento de desempenho particularmente útil para treinar modelos do tipo ChatGPT. Enquanto isso, um artigo publicado no ano passado pelo Baidu e Peng Cheng Laboratory demonstrou que os pesquisadores estavam treinando grandes modelos de linguagem usando um método que poderia tornar o recurso adicional irrelevante.
“Se funcionar bem, eles podem efetivamente contornar as sanções”, disse Dylan Patel, analista-chefe da SemiAnalysis.