Para o Computex 2023, a Intel anunciou novos detalhes sobre seu novo silício VPU com foco em IA, que será lançado nos novos chips Meteor Lake da empresa. A empresa também destacou seus esforços para habilitar o ecossistema de IA para seus próximos chips Meteor Lake. A Intel planeja lançar os processadores Meteor Lake, é o primeiro a usar um design baseado em chiplet combinado que aproveita a tecnologia Intel e TSMC em um pacote, até o final do ano. Os chips chegarão primeiro aos laptops, com foco na eficiência de energia e desempenho em cargas de trabalho locais de IA, mas versões diferentes do design também chegarão aos PCs de mesa.
Tanto a Apple quanto a AMD já avançaram com poderosos mecanismos de aceleração de IA incorporados diretamente em seu silício, e a Microsoft também está ocupada aprimorando o Windows com novos recursos para alavancar mecanismos de aceleração de IA personalizados. Após os anúncios da Intel, AMD e Microsoft na semana passada sobre a próxima era da IA para PCs, a Intel se aprofundou em como abordará a classe emergente de cargas de trabalho de IA com seus próprios blocos de aceleração personalizados em seus chips de PC de consumo.
A Intel compartilhou algumas novas renderizações dos chips Meteor Lake e já cobrimos o design geral do hardware durante o Hot Chips 2022. Esses chips serão os primeiros a alavancar o nó de processo Intel 4 e uma série de chiplets TSMC no N5 e Processos N6 para outras funções, como os blocos GPU e SoC. Aqui podemos ver que o chip é dividido em quatro unidades, com CPU, GPU, SoC/VPU e blocos de E/S empilhados verticalmente em cima de um interposer usando a técnica de empacotamento 3D Foveros da Intel. Também incluímos outro conjunto de slides no final do artigo com detalhes arquitetônicos mais granulares da conferência Hot Chips.
O foco aqui é a unidade VPU, mas não deixe que a primeira imagem, que é a ilustração simplificada da Intel compartilhada para o anúncio de hoje, engane você – o bloco inteiro não é dedicado à VPU. Em vez disso, é um bloco SoC com várias outras funções, como E/S, VPU, núcleos GNA, controladores de memória e outras funções. Este bloco é fabricado no processo N6 da TSMC, mas possui a arquitetura Intel SoC e os núcleos VPU. A unidade VPU não consome toda essa área de matriz, o que é bom – isso significaria que a Intel estava empregando quase 30% de sua área de matriz para o que não será uma unidade usada com frequência, pelo menos no início. No entanto, conforme abordaremos a seguir, levará algum tempo até que os desenvolvedores habilitem o ecossistema de aplicativos necessário para fazer uso total dos núcleos de VPU.
No álbum acima, incluí uma imagem da apresentação dos Hot Chips da Intel que fornece a representação gráfica oficial da empresa das funções na matriz de E/S. Eu também incluí um slide chamado ‘fig. 8.’ Este diagrama de blocos vem de uma patente da Intel que é amplamente pensada para delinear o design do Meteor Lake e geralmente corresponde ao que já aprendemos sobre o chip.
A Intel ainda incluirá o bloco de aceleração de AI de baixa potência Gaussian Neural Acceleration que já existe em seus chips, marcado como ‘GNA 3.5’ no bloco SoC no diagrama (mais sobre isso abaixo). Você também pode identificar o bloco ‘VPU 2.7’ que compreende o novo bloco VPU baseado em Movidius.
Como a renderização estilizada da Intel, a imagem da patente também é apenas uma renderização gráfica sem correlação real com o tamanho físico real das matrizes. É fácil ver que, com tantas interfaces externas, como os controladores de memória, PCIe, USB e SATA, sem mencionar os mecanismos de mídia e exibição e o gerenciamento de energia, os núcleos VPU simplesmente não podem consumir muito da área do die em o ladrilho SoC. Por enquanto, a quantidade de área de matriz que a Intel dedicou a esse mecanismo é desconhecida.
Placa/Chiplet Intel Meteor Lake | Fabricante / Nó |
Bloco da CPU | Intel / ‘Intel 4’ |
3D Foveros Base Die | Intel/22FFL (Intel 16) |
Bloco de GPU (tGPU) | TSMC/N5 (5nm) |
Bloco SoC | TSMC/N6 (6nm) |
Bloco IOE | TSMC/N6 (6nm) |
A VPU foi projetada para cargas de trabalho de IA sustentadas, mas o Meteor Lake também inclui um mecanismo de CPU, GPU e GNA que pode executar várias cargas de trabalho de IA. A Intel da Intel diz que a VPU é principalmente para tarefas em segundo plano, enquanto a GPU intervém para trabalhos paralelizados mais pesados. Enquanto isso, a CPU aborda o trabalho de inferência de baixa latência leve. Algumas cargas de trabalho de IA também podem ser executadas na VPU e na GPU simultaneamente, e a Intel habilitou mecanismos que permitem aos desenvolvedores direcionar as diferentes camadas de computação com base nas necessidades do aplicativo em questão. Em última análise, isso resultará em maior desempenho com menor consumo de energia – um dos principais objetivos do uso da VPU de aceleração AI.
Os chips da Intel atualmente usam o bloco GNA para inferência de IA de baixa potência para funções de processamento de áudio e vídeo, e a unidade GNA permanecerá no Meteor Lake. No entanto, a Intel diz que já está executando parte do código focado no GNA no VPU e obtendo melhores resultados, com uma forte implicação de que a Intel fará a transição para o VPU inteiramente com chips futuros e removerá o mecanismo GNA.
A Intel também divulgou que o Meteor Lake possui uma estrutura coerente que permite um subsistema de memória unificado, o que significa que ele pode facilmente compartilhar dados entre os elementos de computação. Esta é uma funcionalidade chave que é semelhante em conceito a outros concorrentes no espaço de CPU AI, como a Apple com sua série M e os chips Ryzen 7040 da AMD.
Aqui podemos ver o slideware da Intel cobrindo seus esforços para habilitar o vasto ecossistema de software e sistema operacional que ajudará a impulsionar aplicativos acelerados por IA no PC. O discurso da Intel é que ela tem presença de mercado e escala para levar a IA ao mainstream e aponta para seus esforços colaborativos que trouxeram suporte para seus processadores híbridos x86 Alder e Raptor Lake para Windows, Linux e o ecossistema ISV mais amplo.
A indústria enfrentará desafios semelhantes ao trazer a aceleração da IA para sistemas operacionais e aplicativos modernos. No entanto, ter a capacidade de executar cargas de trabalho de IA localmente não vale muito se os desenvolvedores não oferecerem suporte aos recursos devido a implementações proprietárias difíceis. A chave para facilitar o suporte a cargas de trabalho locais de IA são as bibliotecas de aceleração DirectML DirectX 12 para aprendizado de máquina, uma abordagem defendida pela Microsoft e pela AMD. O VPU da Intel suporta DIrectML, mas também ONNX e OpenVINO, que a Intel diz oferecer melhor desempenho em seu silício. No entanto, ONNX e OpenVINO exigirão um trabalho de desenvolvimento mais direcionado dos desenvolvedores de software para extrair o desempenho máximo.
Muitas das cargas de trabalho de IA mais intensas de hoje, como grandes modelos de linguagem como ChatGPT e similares, exigem potência computacional intensa que continuará a ser executada em data centers. No entanto, a Intel afirma que apresenta preocupações com latência e privacidade, sem mencionar o custo adicionado à equação. Alguns aplicativos de IA, como processamento de áudio, vídeo e imagem, poderão ser endereçados localmente no PC, o que, segundo a Intel, melhorará a latência, a privacidade e o custo.
A Intel aponta para uma variedade de cargas de trabalho diferentes que podem se beneficiar da aceleração de IA local, incluindo processamento de vídeo e áudio em tempo real e captura de movimento em tempo real para o Unreal Engine. A Intel também demonstrou Stable Diffusion rodando na GPU e VPU do Meteor Lake simultaneamente e super-resolução rodando apenas na VPU. No entanto, a demonstração não nos dá um quadro de referência de uma perspectiva de desempenho, portanto, não podemos atestar o desempenho relativo em comparação com outras soluções. Além disso, nem todos os modelos Stable Diffusion podem ser executados localmente no processador – eles precisarão de uma aceleração GPU discreta.
Atualmente, uma série de aplicativos comuns oferece suporte a alguma forma de aceleração local de IA, mas a seleção ainda permanece bastante limitada. No entanto, o trabalho de desenvolvimento contínuo da Intel e da indústria em geral permitirá que a aceleração da IA se torne mais comum ao longo do tempo.
Aqui estão alguns slides com mais detalhes arquitetônicos da apresentação do Hot Chips. A Intel diz que o Meteor Lake está a caminho de ser lançado este ano, mas chegará primeiro aos laptops.
Atualmente, todos os sinais apontam para que os chips de desktop Meteor Lake sejam limitados a modelos Core i3 e Core i5 comparativamente mais baratos, classificados para envelopes de energia conservadores de 35W e 65W, mas a Intel ainda não fez um anúncio formal. Esperamos aprender mais conforme nos aproximamos do lançamento ainda este ano.