Intel lançou sua Biblioteca de aceleração NPU de código aberto, permitindo que os PCs Meteor Lake executem LLMs leves como o TinyLlama. É destinado principalmente a desenvolvedores, mas usuários com alguma experiência em codificação podem usá-lo para executar seu chatbot de IA no Meteor Lake.
A biblioteca já está disponível no GitHub e, embora a Intel devesse escrever uma postagem no blog sobre a NPU Acceleration Library, o Intel Software Architect Tony Mongkolsmai compartilhou isso no início do X. Ele mostrou uma demonstração do software executando o TinyLlama 1.1B Chat em um laptop MSI Prestige 16 AI Evo equipado com uma CPU Meteor Lake e perguntou sobre os prós e contras de smartphones e telefones flip. A biblioteca funciona em Windows e Linux.
Para os desenvolvedores que estão perguntando, confira a biblioteca Intel NPU Acceleration de código aberto recentemente. Acabei de experimentar em minha máquina MSI Prestige 16 AI Evo (desta vez Windows, mas a biblioteca também suporta Linux) e seguindo a documentação do GitHub consegui executar o TinyLlama…1º de março de 2024
Claro, como a Biblioteca de Aceleração NPU é feita para desenvolvedores e não para usuários comuns, não é uma tarefa simples usá-la para seus propósitos. Mongkolsmai compartilhou o código que escreveu para colocar seu chatbot em execução, e é seguro dizer que se quiser que a mesma coisa seja executada em seu PC, você precisará de um conhecimento decente de Python ou redigitar cada linha compartilhada na imagem acima e esperar que funcione no seu PC.
Como a Biblioteca de Aceleração NPU é feita explicitamente para NPUs, significa que apenas o Meteor Lake pode executá-la no momento. As CPUs Arrow Lake e Lunar Lake, previstas para o final deste ano, devem ampliar o campo de CPUs compatíveis. Essas próximas CPUs oferecem três vezes mais desempenho de IA em relação ao Meteor Lake, provavelmente permitindo a execução de LLMs ainda maiores em silício de laptop e desktop.
A biblioteca ainda não está totalmente equipada e foi enviada com pouco menos da metade dos recursos planejados. Mais notavelmente, falta inferência de precisão mista que pode ser executada no próprio NPU, BFloat16 (um formato de dados popular para cargas de trabalho relacionadas à IA) e computação heterogênea NPU-GPU, presumivelmente permitindo que ambos os processadores trabalhem nas mesmas tarefas de IA. A Biblioteca de Aceleração NPU é totalmente nova, então não está claro quão impactante ela será, mas cruzamos os dedos para que isso resulte em algum novo software de IA para PCs de IA.