O Ryzen 9 7950X3D da AMD é a CPU para jogos mais rápida do mundo devido à decisão da AMD de trazer sua tecnologia disruptiva de empilhamento de chips 3D para o Zen 4, mas, curiosamente, a empresa não compartilhou nenhum detalhe sobre seu novo V-Cache 3D de segunda geração em seus materiais informativos Ryzen 7000X3D. Inicialmente, encontramos alguns detalhes em uma recente conferência de tecnologia que incluímos em nossa análise, e agora a AMD finalmente respondeu a algumas de nossas perguntas de acompanhamento e compartilhou novos detalhes importantes, incluindo que o chiplet permanece no processo de 7 nm e agora tem um largura de banda de pico de até 2,5 TB/s, enquanto o V-Cache 3D de primeira geração atingiu o pico de 2 TB/s (entre muitas outras informações novas). Também temos novas fotos e diagramas do novo 6nm I/O Die que a AMD usa para seus processadores Ryzen 7000.
No geral, a tecnologia 3D V-Cache de segunda geração da AMD é um avanço impressionante em relação à primeira geração porque permite que a empresa aproveite o nó de processo de 7 nm, agora maduro e mais barato, para aumentar o desempenho de sua computação de ponta de 5 nm morrer. O novo design representa a AMD aproveitando a principal vantagem das metodologias de design baseadas em chiplet — usando um nó de processo mais antigo e mais barato em conjunto com uma nova tecnologia de processo cara — para a terceira dimensão. Agora, para os detalhes essenciais.
Primeiro, uma rápida atualização de alto nível. Como você pode ver acima, a tecnologia 3D V-Cache da AMD empilha um chiplet L3 SRAM adicional diretamente no centro do chiplet de matriz de computação (CCD) para isolá-lo dos núcleos geradores de calor. Esse cache aumenta a capacidade para 96 MB para o chiplet equipado com V-Cache 3D, aumentando assim o desempenho de aplicativos sensíveis à latência, como jogos.
Recebemos novas informações sobre a implementação de segunda geração diretamente da AMD e da Conferência Internacional de Circuitos de Estado Sólido (ISSCC) de 2023, onde a AMD fez uma apresentação sobre a arquitetura Zen 4.
O V-Cache 3D da geração anterior da AMD usava um chiplet L3 SRAM de 7 nm empilhado sobre um Zen 3 CCD de 7 nm. A AMD manteve o processo de 7nm para o novo chiplet L3 SRAM, mas agora o empilha em cima de um menor Zen 4 CCD de 5nm (veja a tabela abaixo). Isso cria uma incompatibilidade de tamanho, porém, que exigiu algumas alterações.
Linha 0 – Célula 0 | 2ª Geração 7nm 3D V-Cache Die | Matriz V-Cache 3D 7nm de primeira geração | 5nm Zen 4 Core Complex Die (CCD) | 7nm Zen 3 Core Complex Die (CCD) |
Tamanho | 36mm^2 | 41mm^2 | 66,3 mm^2 | 80,7 mm^2 |
Contagem de transistores | ~4,7 bilhões | 4,7 bilhões | 6,57 bilhões | 4,15 bilhões |
MTr/mm^2 (densidade do transistor) | ~130,6 milhões | ~114,6 milhões | ~ 99 milhões | ~51,4 milhões |
Primeiro, a AMD fez a matriz SRAM de 7 nm menor, então agora ela mede 36 mm2 em comparação com os 41 mm2 da geração anterior. No entanto, o número total de transistores permanece o mesmo em ~ 4,7 bilhões, então o novo die é significativamente mais denso que o chiplet de primeira geração.
Como vimos com o chiplet SRAM de primeira geração, esta é uma densidade de transistor incrível para o chiplet de 7nm – estamos olhando para quase 3x a densidade do chiplet de computação de 7nm de primeira geração e, surpreendentemente, o chiplet SRAM de 7nm é significativamente mais denso do que o chiplet de computação de 5 nm. Isso porque, como antes, o chiplet usa uma versão otimizada para densidade de 7nm especializada em SRAM. Ele também não possui os circuitos de controle típicos encontrados no cache – esses circuitos residem no dado de base, o que também ajuda a reduzir a sobrecarga de latência. Em contraste, a matriz de 5 nm inclui vários tipos de transistores junto com caminhos de dados e outros tipos de estruturas não presentes no chiplet L3 SRAM simplificado.
Como antes, a latência extra do cache L3 SRAM adicional pesa 4 clocks, mas a largura de banda entre o chiplet L3 e o die base aumentou para 2,5 TB/s, uma melhoria de 25% em relação ao pico anterior de 2 TB/s.
O chiplet L3 SRAM empilhado é conectado à matriz de base com dois tipos de vias de silício (TSVs — uma conexão elétrica vertical). Os Power TSVs transportam energia entre os chiplets, enquanto os Signal TSVs transportam dados entre as unidades.
No projeto de primeira geração, ambos os tipos de TSVs residiam na região L3 do chiplet base. No entanto, o cache L3 na matriz base agora é menor devido ao aumento da densidade do processo de 5 nm e, embora o chiplet L3 SRAM de 7 nm seja menor, ele agora se sobrepõe ao cache L2 (a geração anterior apenas sobrepunha o L3 na base morrer). Como tal, a AMD teve que alterar as conexões TSV tanto na matriz base quanto no chiplet L3 SRAM.
Mover esses TSVs de potência de L3 para a região L2 foi necessário devido ao aumento da densidade do cache L3 de 5 nm na matriz base — Para a matriz base, a AMD alcançou uma escala de área efetiva de 0,68x no cache L3, caminhos de dados e controle lógica em comparação com o antigo chiplet de base de 7 nm, portanto, há fisicamente menos espaço para TSVs no cache L3.
Os TSVs de sinal permanecem dentro da área de cache L3 no dado base, mas mover os TSVs de potência para o L2 ajudou a reduzir a área TSV no cache L3 em 50%. Não está claro quanto da aprovação de densidade L3 TSV veio da remoção dos TSVs de energia – o roteamento de TSVs de energia e sinal juntos pode criar problemas de integridade de sinal, que geralmente são combatidos aumentando o espaçamento entre os TSVs. A separação dos dois tipos de TSVs em regiões separadas poderia permitir que a AMD empacotasse os TSVs de sinal mais próximos, proporcionando assim um benefício adicional.
A tecnologia de empilhamento de chips 3D da AMD é baseada em Tecnologia SoIC da TSMC. O SoIC da TSMC é sem ressaltos, o que significa que não usa microssaltos ou solda para conectar as duas matrizes. Cobrimos os detalhes profundos dessa tecnologia em nossa análise do RYzen 7 5800X3D e você pode ler muito mais sobre o processo de fabricação e ligação híbrida aqui.
A AMD nos diz que usou o mesmo processo de ligação para o novo chiplet, embora com melhorias no processo e no DCTO, e o tom mínimo do TSV não mudou. A AMD também aplicou aprendizados do design de primeira geração para ajudar a reduzir a sobrecarga dos circuitos de controle no novo design.
Medições de hardware de Tom | Pico de rosca única | Multi-Threaded Sustentado | Tensão (pico) | Potência nT |
CCD 0 (3D V-Cache) | 5,25 GHz | 4,85 GHz | 1.152 | 86 W |
CCD 1 (sem cache extra) | 5,75 GHz | 5,3 GHz | 1.384 | 140W |
O chiplet L3 SRAM também permanece no mesmo domínio de energia que os núcleos da CPU, então eles não podem ser ajustados independentemente. Isso contribui para a frequência mais baixa no chiplet equipado com cache porque a tensão não pode exceder ~ 1,15 V. Você pode ver nossos testes detalhados dos dois tipos diferentes de chiplets aqui.
Linha 0 – Célula 0 | 6nm I/O Die (IOD) – Ryzen 7000 | 12nm I/O Die (IOD) – Ryzen 5000 | Matriz de E/S de 6 nm (IOD) – EPYC |
Tamanho | 117,8 mm^2 | 125mm^2 | 386,88 mm^2 |
Contagem de transistores | 3,37 bilhões | 2,09 bilhões | 11 bilhões |
MTr/mm^2 (densidade do transistor) | ~28,6 milhões | ~16,7 milhões | ~29,8 milhões |
A apresentação do ISSCC da AMD também incluiu muitos novos detalhes sobre os I/O Dies (IOD) de 6 nm usados nos processadores Ryzen 7000 e EPYC Genoa. No álbum acima, você pode ver as imagens ampliadas e um dado anotado do detetive de chips @Locuza_. Você também pode expandir o tweet abaixo para ler a excelente análise de Locuza sobre o Ryzen 7000 IOD.
Colocamos as especificações na tabela para facilitar a comparação e, como você pode ver, o EPYC Genoa I/O Die é simplesmente enorme em comparação com a variante Ryzen 7000 – isso porque a AMD pode conectar até 12 chiplets de computação (CCDs) ao I /O Die para seus processadores EPYC Genoa.
Em contraste, os chips de consumo são limitados a dois chiplets, uma limitação imutável porque, como você pode ver no diagrama de Locuza, o Ryzen 7000 I/O Die possui apenas dois links Global Memory Interconnect 2 (GMI2) que conectam os chiplets de computação ao IOD. Isso é uma chatice – os modelos Genoa de menor contagem de núcleos com quatro CCDs podem ter links dual-GMI3 (modo amplo), um novo recurso que pode oferecer vantagens em algumas tarefas de processamento intensivo de memória. Isso teria sido interessante adicionar aos chips de consumo.
Também adicionamos o deck completo do ISSCC 2022 abaixo para sua leitura – ele inclui alguns outros petiscos interessantes.
Matriz de E/S do cliente Zen 4 Raphael 6 nm:- 128b DDR5 PHY + 32b para ECC (8b por canal 32b)- 2x portas GMI3, 3x CCDs não são possíveis. :p- 28x PCIe 5, Zen1/2/3 cIOD tinha 32x pistas PCIe. Assim, a AMD reduziu o desperdício para o mercado de clientes. – Realmente apenas um RDNA2 WGP, 128 Shader “Cores” pic.twitter.com/erYxTw1p8h4 de março de 2023