A IBM, que está na vanguarda da computação quântica e de vários outros campos de pesquisa, apresentou recentemente o que acha que poderia ser a solução para o processamento de IA (e seus custos). E se a visão da IBM se traduz em algo, o futuro não está centrado em GPUs: em vez disso, ocorre em sinais mistos, chips analógicos isso poderia trazer grandes melhorias na eficiência energética, oferecendo desempenho competitivo em relação aos atuais go-tos do mercado.
De acordo com um trabalho de pesquisa publicado na Natureza Eletrônica Na semana passada, a IBM acredita que o futuro da inferência de IA pode passar por um chip que combina memória de mudança de fase (PCM) com circuitos digitais. De acordo com o artigo, a multiplicação matriz-vetor (uma das principais cargas de trabalho para inferência de IA) pode ser realizada diretamente em pesos armazenados em chip.
Nesse cenário, os requisitos de energia reduzidos de circuitos analógicos passivos (que não requerem uma corrente elétrica contínua para manter o valor de bit que estão mantendo) devem permitir uma redução na energia geral necessária para realizar cálculos de matriz com sucesso – ou , no mínimo, permite que o orçamento de energia excedente das (agora) seções analógicas do chip seja redirecionado para seus circuitos digitais restantes para maior rendimento. O design leva pistas de aprendizados de pesquisas em computação neuromórfica.
Desenvolvido como parte do projeto Hermes da IBM, a versão mais recente do chip conta com 64 blocos de computação, que se comunicam entre si por meio de uma abordagem Network-on-Chip (NOC) com conceito semelhante ao Infinity Fabric da AMD. Há também hardware de função fixa especializado no processamento de camadas convolucionais (que visam reduzir a complexidade das informações subjacentes para acelerar a velocidade de processamento e aumentar a eficiência). Sendo um chip de pesquisa, foi fabricado em um processo de fabricação de 14 nm; talvez a IBM tenha espaço para melhorar ainda mais a eficiência de energia, se as células analógicas puderem ser ainda mais miniaturizadas.
As próprias células de memória de mudança de fase (PCM) são distribuídas ao longo de cada um dos 64 ladrilhos dispostos em uma barra transversal, que pode armazenar um espaço de multiplicação de matriz-vetor de 256×256. Para ser justo, há certas restrições de desempenho em um projeto misto analógico-digital: os sinais precisam ser convertidos de analógico para digital (e vice-versa), o que incorre em penalidades tanto na latência quanto na utilização de energia. Mas com otimizações de agendamento apropriadas, o resultado final é maior eficiência em comparação com um chip totalmente digital (como o A100 e o H100 da Nvidia). Segundo a IBM, um único ResNet-9 a entrada foi processada em 1,52 μs (microssegundos) e consumiu 1,51 μJ (micro-Joules) de energia. De acordo com Abu Sebastian no IBM Rüschlikon Center (como coberto por EE Times), a iteração atual do chip atinge uma taxa de transferência de multiplicação vetorial de matriz de pico de 16,1 a 63,1 TOPC (trilhões de operações por segundo) com uma eficiência energética de 2,48 a 9,76 TOPS W-1.
A “revolução” ainda em andamento da IA desencadeou movimentos vulcânicos no mercado de computação de alto desempenho (HPC). Mas, além de levar para casa a maravilha das GPUs (as unidades gerais de processamento responsáveis por acelerar a maior parte desse mercado específico), a corrida do ouro para aceleradores de IA mostrou o quão dependente de um único player o mercado ainda é (leia-se: Nvidia), ao mesmo tempo trazendo de volta à tona questões de eficiência energética.
Chips analógicos que quebram as barreiras de eficiência de energia certamente seriam um movimento bem-vindo, mas, como acontece com qualquer nova tecnologia, os chips analógicos de inferência de IA terão que lutar para sobreviver contra as tecnologias já arraigadas, a pilha de software e as técnicas implantadas hoje. Os efeitos de rede e a participação de mercado são reais, e o controle da Nvidia no mercado de HPC por meio de suas pilhas de hardware e software CUDA é … vice-like, para dizer o mínimo.