As próximas gerações de PCIe estão se tornando tão exigentes que a Intel está agora projetando técnicas para reduzir a velocidade do barramento, ou mesmo a largura do link PCIe, para evitar o superaquecimento dos dispositivos. A Intel vem desenvolvendo um driver controlador de largura de banda Linux PCIe projetado para manter as térmicas sob controle desde o ano passado, relata Forônio. Esse trabalho inclui o encanamento em novos mecanismos para PCIe 6.0.
A fonte do aumento de temperatura para dispositivos PCIe é bastante simples – à medida que o PCIe fica mais rápido, ele se torna mais exigente com a integridade do sinal e menos tolerante com a perda de sinal, que é combatida pelo aumento do clock e da potência e, assim, é criado calor extra.
A principal função do driver é mitigar problemas térmicos, reduzindo as velocidades do link PCIe para manter as temperaturas sob controle. Esse recurso garante que os dispositivos possam manter temperaturas ideais mesmo sob cargas elevadas. Embora o foco atual esteja no controle da velocidade do link, há planos em andamento para estender a funcionalidade para gerenciar larguras de link PCIe (ou seja, o número de links PCIe ativos), que a especificação PCIe 6.0 permitirá. Por exemplo, um dispositivo PCIe x16 pode mudar para uma conexão x8 ou x4 para controlar as térmicas.
A introdução do PCI 6.0 pode representar um sério desafio térmico, especialmente para servidores GPU que utilizam centenas de links PCIe simultaneamente. “Esta série adiciona controlador de largura de banda PCIe (bwctrl) e driver de resfriamento PCIe associado ao lado do núcleo térmico para limitar a velocidade do link PCIe devido a motivos térmicos”, disse a Intel. descrição do motorista lê. “O controlador de largura de banda PCIe é um driver de serviço de porta de barramento PCI Express. Um dispositivo de resfriamento é criado para cada porta que o driver de serviço encontra se suportar mudanças de velocidade. Esta série apenas adiciona suporte para controlar a velocidade do link PCIe. Controlar a largura do link PCIe também pode ser útil mas AFAIK, não há mecanismo para isso até PCIe 6.0 (L0p), então a otimização da largura do link não é adicionada por esta série.
Embora o compromisso da Intel em melhorar os controles térmicos dos servidores seja compreensível, ainda não se sabe como ele será implementado. A Intel poderia usar dados de sensores térmicos em hosts PCIe, endpoints e retimers fornecidos por meio de interfaces padronizadas.
Recentemente, foi lançado o quinto conjunto de patches para este driver, indicando refinamentos e otimizações no código, como refatorações e limpezas. Este desenvolvimento contínuo reflete a intenção da Intel de aprimorar a capacidade do kernel Linux de lidar com o gerenciamento térmico com versões PCI Express mais novas e mais rápidas, incluindo 6.0 e 7.0.
Embora ainda não estejam concluídas, as atualizações mais recentes do driver mostram um progresso promissor em direção à integração no kernel principal, de acordo com Forônio. Ainda não se sabe como isso afetará o desempenho do treinamento de IA e dos servidores HPC, mas a capacidade oferece à Intel, aos fabricantes de servidores e aos administradores de data centers outra maneira de gerenciar o consumo de energia do servidor e a dissipação de calor.