Análise da Nvidia GeForce RTX 4070: chegada do mainstream Ada

A Nvidia posiciona sua nova GeForce RTX 4070 como uma ótima atualização para usuários de GTX 1070 e RTX 2070, mas isso não esconde o fato de que, em muitos casos, ela está efetivamente empatada com a RTX 3080 da última geração. 3070 Ti, com 50% mais VRAM e eficiência drasticamente aprimorada. A RTX 4070 é uma das melhores placas gráficas? Certamente é uma recomendação mais fácil do que cartões que custam $ 1.000 ou mais, mas você inevitavelmente trocará desempenho por aqueles centavos economizados.

Em sua essência, o RTX 4070 empresta muito do RTX 4070 Ti. Ambos usam a GPU AD104 e apresentam uma interface de memória de 192 bits com 12 GB de GDDR6X 12 Gbps VRAM. A principal diferença, além do corte de preço de $ 200, é que o RTX 4070 possui 5.888 núcleos CUDA em comparação com 7.680 no 4070 Ti. As velocidades do clock também são teoricamente um pouco mais baixas, embora falemos mais sobre isso em nossos testes. Por fim, estamos olhando para um corte de preço de 25% para acompanhar a redução de 23% nos núcleos do processador.

nós cobrimos Arquitetura Ada Lovelace da Nvidia já, então comece por aí se quiser saber mais sobre o que faz as GPUs da série RTX 40 funcionarem. A principal questão aqui é como o RTX 4070 se compara a seus irmãos mais caros, sem mencionar a série RTX 30 da geração anterior. Aqui estão as especificações oficiais para o cartão de referência.

Deslize para rolar horizontalmente

Nvidia RTX 4070 em comparação com outras GPUs Ada / Ampere
Placa de vídeo	RTX 4070	RTX 4080	RTX 4070Ti	RTX 3080Ti	RTX 3080	RTX 3070Ti	RTX 3070
Arquitetura	AD104	AD103	AD104	GA102	GA102	GA104	GA104
Processo tecnológico	TSMC 4N	TSMC 4N	TSMC 4N	Samsung 8N	Samsung 8N	Samsung 8N	Samsung 8N
Transistores (bilhões)	32	45,9	35,8	28.3	28.3	17.4	17.4
Tamanho da matriz (mm^2)	294,5	378,6	294,5	628,4	628,4	392,5	392,5
SMS	46	76	60	80	68	48	46
Núcleos GPU (Shaders)	5888	9728	7680	10240	8704	6144	5888
Núcleos tensores	184	304	240	320	272	192	184
Ray Tracing “Núcleos”	46	76	60	80	68	48	46
Boost Clock (MHz)	2475	2505	2610	1665	1710	1765	1725
Velocidade VRAM (Gbps)	21	22.4	21	19	19	19	14
VRAM (GB)	12	16	12	12	10	8	8
Largura do barramento VRAM	192	256	192	384	320	256	256
Cache L2 (MiB)	36	64	48	6	5	4	4
ROPs	64	112	80	112	96	96	96
TMUs	184	304	240	320	272	192	184
TFLOPS FP32 (aumento)	29.1	48,7	40.1	34.1	29,8	21.7	20.3
TFLOPS FP16 (FP8)	233 (466)	390 (780)	321 (641)	136 (273)	119 (238)	87 (174)	81 (163)
Largura de banda (GBps)	504	717	504	912	760	608	448
TGP (watts)	200	320	285	350	320	290	220
Data de lançamento	abril de 2023	novembro de 2022	janeiro de 2023	junho de 2021	Set 2020	junho de 2021	outubro de 2020
Preço de Lançamento	$ 599	$ 1.199	$ 799	$ 1.199	$ 699	$ 599	$ 499

Há uma inclinação bastante íngreme indo do RTX 4080 para o 4070 Ti e daí para o RTX 4070. Agora estamos olhando para o mesmo número de shaders de GPU – 5888 – que a Nvidia usou na geração anterior RTX 3070. Claro , há muitas outras mudanças que ocorreram.

O principal deles é o aumento maciço nos clocks do núcleo da GPU. Os shaders 5888 rodando a 2,5 GHz fornecerão muito mais desempenho do que o mesmo número de shaders com clock de 1,7 GHz – quase 50% a mais de desempenho, pela matemática. A Nvidia também gosta de ser conservadora e os relógios de jogos do mundo real estão mais próximos de 2,7 GHz … embora o RTX 3070 também tenha registrado mais perto de 1,9 GHz em nossos testes.

A largura de banda da memória acaba sendo um pouco maior do que o 3070 também, mas o cache L2 significativamente maior significará inevitavelmente que ele tem um desempenho muito melhor do que a largura de banda bruta pode sugerir. Mudar para uma interface de 192 bits em vez da interface de 256 bits no GA104 apresenta alguns compromissos interessantes, mas estamos felizes em ter pelo menos 12 GB de VRAM nesta rodada – o 3060 Ti, 3070 e 3070 Ti com 8 GB são todos se sentindo um pouco limitados hoje em dia. Mas tirando o uso de chips de memória no modo “clamshell” (dois chips por canal, em ambos os lados da placa de circuito), 12 GB representa o máximo para uma interface de 192 bits no momento.

Enquanto a AMD estava jogando sombra ontem sobre a falta de VRAM no RTX 4070, é importante observar que a AMD ainda não revelou suas próprias peças “mainstream” da série 7000 e enfrentará possíveis compromissos semelhantes. Uma interface de 256 bits permite 16 GB de VRAM, mas também aumenta os custos da placa e dos componentes. Talvez consigamos um RX 7800 XT de 16 GB, mas o RX 7700 XT provavelmente também terá 12 GB de VRAM. Quanto às GPUs AMD da geração anterior com mais VRAM, isso certamente é verdade, mas a capacidade é apenas parte da equação, então precisamos ver como o RTX 4070 se comporta antes de declarar um vencedor.

Outro item de destaque é o TGP (Total Graphics Power) de 200W, e a Nvidia fez questão de ressaltar que em muitos casos, a RTX 4070 usará menos poder do que o TGP, onde os cartões concorrentes (e ofertas da geração anterior) geralmente atingem ou excedem o TGP. Podemos confirmar que isso é verdade aqui e vamos nos aprofundar nos detalhes mais tarde.

A boa notícia é que finalmente temos uma placa gráfica de última geração a partir de $ 599. Naturalmente, haverá placas com overclock de terceiros que aumentam o preço, com extras como iluminação RGB e resfriamento mais robusto, mas a Nvidia restringiu esta revisão de pré-lançamento a placas vendidas no MSRP. Também temos um modelo PNY que veremos com mais detalhes em uma análise separada, embora incluamos os resultados de desempenho em nossos gráficos. (Spoiler: é tão rápido quanto a Founders Edition.)

Imagem 1 de 2

Quatro GPCs, um NVENC e um NVDEC para o RTX 4070 (Crédito da imagem: Tom’s Hardware)

Acima estão os diagramas de blocos para o RTX 4070 e para o AD104 completo, e você pode ver todo o material extra incluído, mas desativado nesta implementação do AD104 de nível inferior. Nenhum dos blocos nessa imagem está “em escala” e a Nvidia não forneceu uma imagem do AD104, portanto, não podemos tentar determinar quanto espaço é dedicado aos vários bits e peças – não até que outra pessoa faz o trabalho sujo, de qualquer maneira (olhando para você, Fritzchens Fritz (abre em nova aba)).

Conforme discutido anteriormente, o AD104 inclui núcleos Tensor de 4ª geração da Nvidia, núcleos RT de 3ª geração, unidades NVENC/NVDEC novas e aprimoradas para codificação e decodificação de vídeo (agora com suporte a AV1) e um acelerador de fluxo óptico (OFA) significativamente mais poderoso. O último é usado para DLSS 3 e, embora seja “teoricamente” possível fazer a geração de quadros com o Ampere OFA (ou usando alguma outra alternativa), até agora apenas os cartões da série RTX 40 podem fornecer esse recurso.

Enquanto isso, os núcleos Tensor agora suportam FP8 com esparsidade. Não está claro o quão útil isso é em todas as cargas de trabalho, mas certamente a IA e o aprendizado profundo aproveitaram os formatos numéricos de menor precisão para aumentar o desempenho sem alterar significativamente a qualidade dos resultados – pelo menos em algumas cargas de trabalho. Em última análise, dependerá do trabalho que está sendo feito, e descobrir exatamente o que usa FP8 versus FP16, mais esparsidade, pode ser complicado. Basicamente, é um problema para desenvolvedores de software, mas provavelmente veremos ferramentas adicionais (como Stable Diffusion ou GPT Text Generation) que acabarão aproveitando tais recursos.

Os interessados em pesquisa de IA podem encontrar outros motivos para escolher um RTX 4070 em vez de seus concorrentes, e veremos o desempenho em algumas dessas tarefas, bem como em jogos e cargas de trabalho profissionais. Mas antes dos benchmarks, vamos dar uma olhada no RTX 4070 Founders Edition.

Análise da Nvidia GeForce RTX 4070: chegada do mainstream Ada

Links rápidos