A Intel confirmou que interrompeu as remessas de alguns de seus processadores Xeon Sapphire Rapids de quarta geração devido a um bug recém-descoberto. Recebemos uma dica de que a Intel havia pausado as remessas e, acompanhando o assunto, aprendemos vários detalhes sobre o problema com Dylan Patel, analista-chefe da Semianálise, que diz que as remessas foram pausadas para determinados SKUs desde meados de junho. Entramos em contato com a Intel sobre o assunto e a empresa emitiu a seguinte declaração para Ferragens do Tom:
“Tomamos conhecimento de um problema em um subconjunto de processadores Intel Xeon Medium Core Count de 4ª geração (SPR-MCC) que poderia interromper a operação do sistema sob certas condições e estamos investigando ativamente. Esse problema não foi observado ao executar software disponível comercialmente e outros Os SKUs do processador Intel Xeon de 4ª geração (ou seja, XCC e HBM) não exibiram o problema. Por precaução, pausamos temporariamente algumas remessas SPR MCC enquanto ganhamos confiança na mitigação de firmware esperada e esperamos liberar as remessas restantes em breve .” — Porta-voz da Intel para Ferragens do Tom.
Em resposta a uma pergunta de acompanhamento, a Intel também nos disse que não espera que a mitigação do firmware tenha impacto no desempenho.
Os processadores Sapphire Rapids da Intel são criados usando dois tipos de designs subjacentes: o pacote XCC, que emprega quatro ladrilhos de computação (matriz) para criar um único chip, e o pacote MCC, que usa uma única matriz monolítica. Conforme mostrado nos slides acima, o design MCC é usado para chips de até 32 núcleos, que são a fonte de alto volume de vendas da Intel, enquanto as variantes XCC são usadas para chips halo entre 36 e 60 núcleos.
“A Intel enfrentou outra safra de problemas de design relacionados ao Sapphire Rapids MCC, a versão de maior volume do Sapphire Rapids. Os SKUs de 2 e 4 soquetes interromperam as remessas devido a um problema de tempo desde meados de junho”, disse Patel.
A Intel não confirmou que o problema está confinado a SKUs de soquete duplo e quádruplo, classificando esse problema como limitado a um ‘subconjunto’ dos SKUs e não declarou quando a pausa nas remessas começou. A Intel também não confirmou as afirmações de Patel de que o bug está relacionado ao tempo, ou nos deu qualquer esclarecimento sobre a natureza do problema.
Um problema de temporização pode incluir várias possibilidades, desde a interconexão UPI até problemas de temporização de instrução, portanto, a verdadeira natureza do bug permanece nebulosa por enquanto. Sabemos que a Intel pode corrigir o problema com uma correção de firmware que aparentemente permanece em validação por enquanto, portanto, o problema não exigirá um redesenho ou nova revisão/etapa para correção. Além disso, uma vez que o novo firmware é uma correção adequada, a Intel pode não ser obrigada a substituir nenhum processador já em campo – embora isso possa representar uma dor de cabeça de validação para seus clientes.
A Intel recebeu muitas críticas não apenas por seus erros na tecnologia do nó de processo que atrasou o Sapphire Rapids, mas também pelos problemas em sua metodologia de design e validação que levaram a mais atrasos e inúmeras novas etapas (um redesenho tipicamente menor que requer uma nova versão de silício para corrigir um problema). O Sapphire Rapids da Intel foi atormentado por rumores de que seus erros de design/verificação levaram a 12 etapas. Naturalmente, isso levou a graves atrasos na produção e perda de datas de lançamento.
Desde então, a empresa comunicou que planeja adotar uma abordagem diferente para seu fluxo de design, simulação e validação que irá corrigir esses problemas. A Intel diz que esses ajustes serão totalmente aplicados na próxima geração de processadores Xeon.
A Intel diz que esse novo bug do Sapphire Rapids não foi encontrado durante a “execução de software disponível comercialmente” e obviamente não foi detectado durante a validação. Esse tipo de situação não é totalmente inédito; quase todos os chips complexos têm errata e bugs conhecidos e desconhecidos que são resolvidos com soluções alternativas de firmware, driver e software que podem reduzir ou eliminar esses problemas, e eles são enviados dessa forma – essa é a própria natureza do design e produção de semicondutores modernos.
Por exemplo, a geração de processadores Skylake da Intel foi enviada com 53 errata conhecidas e, seis meses depois, a Intel listou outras 40 errata. Outro exemplo é a recente descoberta de que os chips EPYC Rome da AMD travam após 1.044 dias de atividade. Alguns bugs simplesmente não são corrigidos, pois não são considerados críticos o suficiente para serem corrigidos ou são corrigidos com uma combinação de firmware e software. Os bugs mais críticos às vezes requerem uma nova etapa para correção, que é o pior cenário. Felizmente para a Intel, esse não parece ser o caso aqui.
No entanto, embora os bugs não sejam incomuns, é incomum que esses tipos de bugs causem uma interrupção nas remessas, o que implica que isso é mais do que um erro comum. A Intel não esclareceu quando planeja retomar as remessas para Sapphire Rapids, mas atualizaremos nossa cobertura à medida que soubermos mais.