性能炸裂增長,神經網絡渲染新紀元!​NVIDIA GeForce RTX 4090 FE首發測評

9月20日,NVIDIA正式發佈了第 3 代 RTX 架構 Ada Lovelace,並推出了基於該架構的旗艦GPU——GeForce RTX 4090。它配備了第四代Tensor Cores和第三代RT Cores,AI性能和光追性能相對上代最高可提升2~4倍,並支持全新的DLSS 3技術。今天,我們迎來了NVIDIA GeForce RTX 4090 Founders Edition的性能解禁,那麼RTX 4090爲何如此強大?其採用的全新NVIDIA Ada Lovelace 架構GPU到底有哪些進化?且看我們全面的解析與測評。

↓↓↓NVIDIA GeForce RTX 4090 FE實測體驗↓↓↓


NVIDIA Ada Lovelace架構帶來革命性進化

Ada Lovelace(1815~1852)是一位英國數學家、計算機程序創始人,被稱爲世界上第一位程序員,那麼,以她名字命名的NVIDIA Ada Lovelace架構GPU到底帶來了怎樣的革命性升級呢?

工藝領先,GPU規模與頻率全面提升

完整的Ada AD102 GPU包含了12個GPC、共計18432個CUDA單元、144個RT Cores(第三代)、576個Tensor Cores(第四代)以及576個紋理單元,晶體管數量高達760億個,遠遠超過了NVIDIA Ampere的280億個。

在Ada GPU的1個GPC中,包含了6個TPC、每個TPC包含1個多邊形引擎和兩個SM單元,每個SM單元包含128個CUDA單元、1個第三代RT Core和4個第四代Tensor Core。

得益於TSMC 4N NVIDIA定製工藝,NVIDIA Ada Lovelace 架構GPU規模達到了空前的強大,同時在工作頻率方面也有了巨大的提升。以當前RTX 40中的旗艦GeForce RTX 4090爲例,它包含了11個GPC、共計16384個CUDA單元、128個RT Cores(第三代)、512個Tensor Cores(第四代)以及512個紋理單元 ,默認加速頻率爲2520MHz,已經遠遠超過了上代RTX 3090 Ti的1860MHz,而在遊戲中甚至還能更高。總而言之,規模和頻率的全面提升,爲NVIDIA Ada Lovelace架構GPU強悍的性能打下了堅實的物理基礎。

Shader Executing Reordering(SER)着色器執行重排序

從NVIDIA官方數據來看,NVIDIA Ada Lovelace 架構GPU的着色器數據吞吐量最高可達90 TFLOPS(GeForce RTX 4090爲83 TFLOPS),而上代NVIDIA Amere大約爲40 TFLOPS,這當然與新一代GPU規模大幅提升不無關係。

不過,除了規模暴增之外,NVIDIA Ada Lovelace 架構GPU還有一項進化就是支持Shader Executing Reordering(SER)着色器執行重排序。我們知道,GPU在完成大量並行計算的時候效率最高,而隨着遊戲中光追效果越來越複雜,着色器面臨的可能就是大量發散的、無序的低效率工作任務,從而影響了渲染效率。SER技術的出現,就可以把這些雜亂的工作任務進行分類,動態重組爲更高效的任務,從而提升着色器的執行效率。從NVIDIA官方數據來看,SER技術大約會帶來2倍的着色器性能提升,而在《賽博朋克2077》這樣的光追遊戲實測中,SER也大約帶來了44%的幀率提升。

第三代RT Core

從RTX 20到RTX 30再到RTX 40,RT Core當然也進化到了第三代。簡單地從有效光線追蹤計算能力來看,NVIDIA Ada Lovelace 架構GPU的第三代RT Core吞吐量達到了191 TFLOPS,是上一代的2.8倍之多。

另外,我們知道NVIDIA Turing和Ampere 架構GPU中的RT Core包括了用於加速邊界體積層次(BVH)數據結構遍歷的加速單元,並執行射線三角形和光線邊界框相交測試計算。Ampere的RT Cores中,BVH遍歷由Box Intersection Engine進行加速,射線三角形相交測試由三角形相交引擎進行加速,這已經被證明是迄今爲止處理光追工作負載最高效的引擎。而在Ada GPU的第三代RT Cores中,除了以上兩個功能外,還引入了稱爲“微映射透明度引擎”(OMM)和“微網格置換引擎”(DMM)。

微映射透明度引擎的作用是優化光線追蹤渲染,大幅降低着色器的工作負載,這對於處理複雜物體光追特性來講提升是很大的。具體的原理是將光線追蹤特性烘焙到不透明的蒙版中,讓那些不規則的形狀與半透明的對象都能更快更精準地被渲染出來。

微網格置換引擎則可以將面數非常多的複雜圖形做簡化,創造出更加簡單的模型,從而實現用基本三角形渲染複雜幾何圖形的目的,大大減少了計算量和對顯存的佔用。從官方數據來看,微網格置換引擎可以讓光線追蹤的BVH速度最多提升15倍以上,而顯存佔用最多可降低到原先的1/20,總之就是越複雜的模型,微網格置換引擎的優化效果越突出。

第四代Tensor Core

在Ada GPU上,Tensor Cores已經進化到了第四代,而這次Tensor Cores的升級尤其重磅。它配備了全新的FP8引擎,張量處理性能高達1.32 PetaFlops(相對上代提升了五倍之多)——注意單位是以千萬億計的PetaFlops,而之前我們用的是以萬億計的TFlops。當然,第四代Tensor Cores最具革命性的進步還得屬全新加入的光流加速器(Optical Flow Accelerator),而它就是NVIDIA DLSS3黑科技的核心所在,後面的DLSS3章節會詳細介紹。

DLSS 3技術

DLSS技術大家並不陌生,作爲RTX系列顯卡提升畫質與幀率的專用黑科技,到RTX 40這一代則直接從之前的DLSS 2進化到了DLSS 3,跨度之大證明其改進是革命性的,NVIDIA官方甚至稱其代表了“神經網絡渲染新時代”。

和之前的DLSS不同,DLSS 3在原有的超分辨率功能基礎上進一步引入了光學多幀生成技術,簡單來說就是可以通過AI計算生成新的幀,而不像之前那樣只是生成像素。而這個幀生成的工作,這個幀生成的工作是在Ada架構中新的光流加速器完成的,當然這就意味着DLSS 3中的“光學多幀生成”功能是RTX 40獨享的。

光流加速器可以在DLSS 2的基礎上計算兩幀之間的光流場,捕捉遊戲畫面中從第1幀到第2幀之間變化的方向與速度,包含粒子、光線照射、反射等像素信息,通過計算運動矢量和光流場來精確重建畫面。

簡單來說,DLSS2做的是通過AI計算出畫面上剩餘的像素,而DLSS3則在此基礎上還能計算出下一幀完整的畫面,這樣算下來DLSS3等於是完全重建了實際顯示畫面7/8的像素,也可以說是重建了相當於實際渲染像素7倍的像素。此外,由於DLSS3的“幀生成”在GPU中後處理,所以即便是CPU性能出現瓶頸,也能提升遊戲幀率。

按照官方數據,DLSS3最多可帶來4倍的遊戲性能提升,讓8K與全景光追遊戲成爲了現實。DLSS3包含了“光學多幀生成技術”、“超分辨率”和“NVIDIA Reflex”三大部分,開發者只要整合DLSS3,就可默認支持DLSS2。目前DLSS3已經得到了遊戲開發者與遊戲引擎的支持,超過35款遊戲和應用都將支持該技術,首批遊戲與應用將在10月內推出。

NVIDIA Studio優化

在生產力方面,NVIDIA GPU必然是設計師們優先考慮的高效工具,而RTX 40系列在NVIDIA Studio方面的優化配合NVIDIA Studio驅動也將會爲內容創作者們提供更加出色的選擇。總的來說,目前RTX 可以加速 110 多款主流創意應用,此外,SDK的提供使這些應用更加高效,並提供獨家的功能,例如Optix、DLSS和Maxine。NVIDIA Studio 還提供了全套創意應用,包括 NVIDIA Omniverse、Broadcast、Canvas 和 RTX Remix。

AV1與AI直播

我們知道AV1相比H.264等編碼方式可以在同碼率下提供更加清晰的視頻畫面,而且AV1還支持一些更先進的編碼特性,例如HDR與低延遲。RTX 40的編碼器(顯存12GB以上的RTX 40系列甚至還提供了雙NVENC編碼器)提供了對AV1硬件編碼的支持,而OBS和Discord等推流軟件都將在不久之後提供對NVENC AV1的支持,讓玩家享受到更加精美而流暢的直播視頻畫面。解碼方面,RTX 40的NVENC也繼承了RTX 30上的第5代硬件解碼器,支持MPEG-2、VC-1、H.264(AVCHD)、H.265(HEVC)、VP8/9以及AV1的硬件解碼。AI直播部分,NVIDIA在直播應用技術上的更新有:面部表情預估,眼神追蹤(讓你看起來像是在看攝像頭),以及虛擬綠幕的質量改進,而開發者可以很容易地在自己的APP中集成NVIDIA Broadcast SDK的這些功能。

加速內容創作

前面已經介紹過,在配備12GB顯存及以上型號的RTX 40 GPU中內置了第八代雙編碼器,因此在視頻導出速度方面有了巨大的提升。從圖中可以看到,RTX 4090相對RTX 3090 Ti的視頻轉碼時間縮短了一半多,大大提升了工作效率。DaVinci Resolve、voukoder和剪映都將首發提供對RTX 40雙編碼器的支持。此外,RTX 40在AI視頻工具中也大幅提升了效率,例如DaVinci Resolve AI Magic Mask中,RTX 4090的處理速度就是RTX 3090 Ti的1.7倍。此外,得益於RTX 40系列的第三代 RT Cores、SER、DLSS 3 和 NVIDIA Omniverse,3D 設計師也可以在 4K/60fps 下進行創作,而無需代理,工作效率大大提升。遊戲發燒友和開發者也可以通過Modder直接重製畫面增強的經典遊戲,並通過RTX Remix添加RTX效果。

總的來說,全新TSMC 4N NVIDIA 定製工藝打造的NVIDIA Ada Lovelace GPU在架構、頻率與能效比方面帶來了巨大的升級,提供了相對上代數倍的性能,全新的RT Cores、Tensor Cores設計、光流加速器加持的DLSS3技術等等都堪稱革命性的進步。它不但爲玩家帶來了速度與畫面雙絕的光追遊戲體驗(甚至直接進入了8K遊戲的時代),更是爲內容創意設計者們帶來了極致高效的生產力利器,稱得上是GPU發展史上又一個里程碑式的存在。

巨大壓迫感的經典外觀設計 散熱效能再次提升

我們知道,NVIDIA的Founders Edition一直以來都是N飯的信仰神器,在工業設計方面非常前衛,非常具備收藏價值,同時在電氣性能方面也是衆多AIC廠商的重要設計參考。

RTX 4090 Founders Edition的外觀相沿用了上代的設計思路,銀色與黑色的搭配張弛有度,中央的X造型更顯科技力量的神祕。散熱器方面同樣採用了一隻軸流風扇位於顯卡正面負責推風,另一隻軸流風扇位於顯卡背面負責拉風,從而在機箱中製造出更爲高效的散熱風道,提升顯卡的散熱效果。

咋一看的外觀下卻是搭載了新的散熱鰭片和氣流設計,相比RTX 3090 FE,RTX 4090 FE的最大氣流多出了20%,在同噪音等級情況下,氣流可以多出15%,以提供更好的散熱效果。

本次的RTX 4090 FE也是有史以來體積最龐大的FE設計,厚度已經達到了3.5槽,重量接近2.2KG,散熱器的體積也是相當的誇張,給人強烈的力量感。電源接口則是新規範的12+4pin接口,使用老電源的玩家也不必擔心,包裝盒裏附送一條12+4Pin轉4×8Pin的轉接線。

在RTX 4090 FE的側面,有着GEFEORCE RTX的信仰燈,通電後會亮起白光,頗具儀式感。顯卡尾部設計了一個磁吸蓋板,打開後會露出機架安裝孔位,方便放入服務器機櫃。

接口方面,RTX 4090 FE提供了3個DP 1.4接口和1個HDMI 2.1接口,可以支持8K/60Hz HDR10輸出,爲8K遊戲與超極清視頻提供了物理規格上的支持。

RTX 4090 FE的PCB造型和上代相似,均採用了異性PCB設計。但本次加強了供電設計,全新設計的20+3相豪華供電可以提供更加平穩的高負載輸出曲線,減少電源負載波動,帶來更穩定的使用環境。

性能暴增,DLSS3開創AI渲染新方向

測試平臺

顯卡:NVIDIA GeForce RTX 4090 Founders Edition

處理器:Intel酷睿i9 12900K

主板:ROG MAXIMUS Z690 HERO

內存:Kingston FURY Renegade RGB 32GB DDR5

硬盤:Kingston KC3000 2TB

電源:ROG THOR雷神1200W Platinum II

操作系統:Windows 11專業版

顯示器:AGON PD32M

基準性能測試

在測試DX11 2K分辨率性能的Fire Strike Extreme項目中,RTX 4090直接達到了46000分以上,兩年前我們還在感嘆3090終於突破了單卡2W分,RTX 4090直接再加了2萬分上去,比RTX 3090 Ti高出了78%。

代表DX12 2K分辨率性能的Time Spy項目中,RTX 4090跑到了36690分,相比RTX 3090 Ti提升了75%。在4K分辨率的Time Spy EXTREME中,RTX 4090依舊能比RTX 3090 Ti提升78%,提升非常明顯而且很穩定。

光追性能方面,PortRoyal測試中,RTX 4090的得分比RTX 3090 Ti高了一萬多分,有82%的提升。純光追場景的DXR測試就更明顯了,性能幾乎翻倍了,畢竟128個第三代光追單元對上84個第二代光追單元,優勢不言而喻。

新版的3DMARK將加入DLSS3的測試。DLSS3測試默認爲4K/性能模式,可以看到RTX 4090在開啓DLSS3後幀率達到原生的3倍,比較符合老黃說的2~4倍的提升範圍。

單看跑分的話,RTX 4090 FE毫無任何擠牙膏的嫌疑,性能提升非常巨大。那實際遊戲中有沒有跑分這麼猛呢?我們也進行了詳細的測試,下面將分成光柵化性能、光追/DLSS2性能和DLSS3性能三個部分進行詳細測評。

光柵遊戲性能測試(均爲預設最高畫質/RT off/DLSS off/單位:fps)

遊戲實測部分,對於RTX 4090這種旗艦顯卡來講,使用1080P分辨率對GPU的壓力太小,只會凸顯出處理器等子系統的瓶頸,因此我們只在2K和4K分辨率下測試。

先看看經典遊戲《古墓麗影:暗影》的表現,在2K分辨率下,RTX 4090比RTX 3090 Ti多出了70幀,提升幅度爲38%,在4K分辨率下則多出了75幀,提升達到了71%。RTX 4090在高分辨率下的優勢明顯更大,如果仔細看的話就會發現,在2K分辨率下,RTX 4090是跑不滿450W功耗的,甚至不到300W的功耗,GPU佔用也沒跑滿,這說明現在部分遊戲的2K分辨率下,12900K 都已經給RTX 4090造成了一定的瓶頸了,2K分辨率下12900K帶不動RTX 4090了。

《荒野大鏢客:救贖2》的優化比較不錯,RTX 3090 Ti就可以在2K分辨率下可以達到120fps以上的高刷幀率,而RTX 4090則可以在4K分辨率下實現相同的120幀以上的幀率,沒想到4K/144Hz顯示器跑滿玩3A這麼快就實現了。

《刺客信條:英靈殿》對N卡的優化相對較差,但RTX 4090在4K分辨率下的幀率依舊達到了RTX 3090 Ti在2K分辨率下的幀率。相比3090 Ti,RTX 4090在2K和4K分辨率下的幀率提升分別達到了44%和49%。

《看門狗:軍團》對於RTX 3090 Ti來說壓力明顯就上來了,4K分辨率下雖然也超過了60fps,但就剛剛到而已。RTX 4090就不一樣了,4K分辨率下依舊有接近120fps的平均幀,比RTX 3090 Ti在2K的幀率都還高。4K下的提升也接近了70%,提升非常明顯。

《極限競速:地平線5》的硬件要求比4代提高了不少,RTX 4090在4K下同樣也比RTX 3090 Ti高出了61%,4K幀率甚至比RTX 3090 Ti的2K高了25幀出來,性能表現有點誇張。

《孤島驚魂6》的整體優化也相對較差,雖然2K下RTX 4090和RTX 3090 Ti沒有拉開差距,但到了4K下提升就比較明顯了,雖然不如其他遊戲那樣高,但在4K分辨率下也多出41%的幀率,對於發燒玩家來說依舊是非常明顯的提升。

《毀滅戰士:永恆》作爲一款3A來說優化相當好,RTX 3090 Ti在4K下都接近200幀,RTX 4090的幀數就更誇張了,4K下跑出了319幀,一個3A大作4K下300多幀的幀率,已經比很多玩家在1080P分辨率下跑《英雄聯盟》的幀率都還高了,着實有些離譜。

另外,我們還測試了《德軍總部:新血脈》《Control》《殺手3》,在這些遊戲中大致的表現都差不多,RTX 4090在4K分辨率下的幀率幾乎都持平甚至超過了RTX 3090 Ti在2K分辨率下的幀率。

總體來看,在這10款遊戲中,RTX 4090在2K分辨率下比RTX 3090 Ti最多提升了58%,平均提升36%左右,受到CPU的限制比較明顯。4K分辨率下則最低有41%的提升,最高達到了78%,十款遊戲平均的話,RTX 4090的幀率是RTX 3090 Ti的1.6倍。

從光柵化遊戲的測試來看,普通的4K應該遊戲也沒有完全壓榨出RTX 4090的真正實力,GPU性能還顯得有不少盈餘,那麼,接下來就該光追遊戲上場了!

光線追蹤遊戲+DLSS2性能測試(均爲預設最高畫質/RT on/DLSS質量/單位:fps)

同樣先來看看《古墓麗影:暗影》。4K分辨率下不開光追,RTX 4090比RTX 3090 Ti的提升有71%,開啓光追後,提升進一步加大到了78%,可以看到這一代的光線追蹤性能確實是有提升的。

《地鐵:離去 增強版》對GPU性能的需求非常高,可以算得上是一代硬件殺手。4K分辨率下,RTX 3090 Ti不開DLSS的平均幀已經只有40幀了,即使開啓DLSS2質量,也只有剛剛60幀出頭,而RTX 4090即使不開DLSS,在4K下也能跑到73幀的平均幀,這個幀數差距就相當直觀了。開啓DLSS2後,甚至可以超過100幀。

《看門狗:軍團》中也是同樣的情況,RTX 3090 Ti需要開啓DLSS才能在4K下達到60幀的表現,而RTX 4090則無需DLSS也可以以最高畫質+最高光追模式跑到60幀以上,性能表現非常搶眼。

《Control》中運用了多種光線追蹤技術,在該遊戲中的表現也符合之前的預期表現。在4K分辨率下開啓光追後,RTX 4090相比RTX 3090 Ti幀速提升了63%。而開啓DLSS質量模式後,幀數達到了142幀,相比3090 Ti提升了61%。

《消失的光芒2》作爲今年爲數不多的3A大作,也備受玩家們關注,同時也對硬件性能提出了更高的要求,引領了一波升級。RTX 3090 Ti在4K光追下也就30多幀,而RTX 4090的幀速表現幾乎就翻倍了,開啓DLSS質量模式後,平均幀也是能接近120幀,提升達到了85%以上。

另一個“古老”但又煥發活力且依舊是硬件殺手的遊戲《我的世界》RTX版裏,DLSS默認和光追綁定,開啓光追默認就開DLSS,如果手動關掉的話,RTX 3090 Ti又掉到了60幀以下。而RTX 4090開啓DLSS的話,甚至能跑到229幀,相比3090提升超過了70%。看到這裏肯定又有很多小夥伴想要去開更高的光追特效折磨顯卡了吧。

想要讓RTX 4090不開DLSS掉到60幀以下,那還得看《光明記憶》的這個直接運用了大量光追效果的測試DEMO。在這個Benchmark中,RTX 4090終於是掉到了40幀左右,但在開啓DLSS2質量模式後,可以提升到77幀,而RTX 3090 Ti即使開了DLSS,也只有44幀。RTX 4090在這裏差不多比RTX 3090 Ti提升了80%,可以看到光追場景的計算約複雜,RTX 4090相對於RTX 3090 Ti的提升就越大。

此外,我們還測試了《德軍總部:新血脈》《毀滅戰士:永恆》《殺手3》《生化危機8》《F1 2022》和《孤島驚魂6》,總體來看,在絕大多數光追遊戲中,RTX 4090相比RTX 3090 Ti都可以保持了70%~80%的優勢,最高甚至可以實現接近3090 Ti兩倍的幀速。RTX 4090幾乎實現了最高特效光追3A大作中不開DLSS也能以60fps以上流暢運行,而開啓DLSS後,更是達到100fps以上的幀率,一臺4K/144Hz顯示器真正有了用武之地。

DLSS 3性能測試(均爲預設最高畫質/RT on/DLSS on/單位:fps)

通過前面的測試,玩家們可能覺得上面的遊戲還不足以真正榨乾RTX 4090的性能,而未來的光線追蹤遊戲必然也會爲玩家帶來更真實的畫面表現,從而更好的應用新硬件的性能。在RTX 40系發佈的同時,我們也可以看到新的RTXDI直接照明技術將搭載在未來的遊戲中,提供更好和更方便應用的光影效果。而在這種情況下,DLSS3成爲了RTX40系列的靈魂了。

我們都知道,DLSS前兩代的原理主要就是超分辨率技術,是通過生成單個像素來提升畫質的,而DLSS3厲害的地方就在於它是引入了光學多幀生成技術,直接生成完整的幀畫面,如果從簡單易理解的方式來說的話,就是通過AI補幀。而這個幀生成的動作就是新加入的光流加速器完成的。這些在前面的技術分析部分我們已經講過了,玩家們可能之前也接觸過一些補幀技術,這些技術要麼不能實時完成補幀動作,要麼有較高的延遲,並不適合遊戲這種實時環境的應用。

而DLSS3的幀生成同樣需要面臨這個問題,所以在DLSS3技術中,我們可以看到它還綁定了NVIDIA Reflex,從而解決延遲問題。目前已經有35款遊戲和應用宣佈即將支持DLSS3技術,而本次測試我們選用了其中的幾款測試版。在支持DLSS3的遊戲中都提供了DLSS超分辨率、幀生成、NVIDIA Reflex的開關選項,這其實就是DLSS3的三個組成部分,而關閉幀生成則等效於使用DLSS2,但如果打開了幀生成,那Reflex就必須開啓。

從測試結果可以看到,《賽博朋克2077》中,有了DLSS3的光學多幀生成加持,同樣在4K+DLSS性能模式下,RTX 4090的平均幀率甚至超過了RTX 3090 Ti的2.3倍!

《逆水寒》聯手NVIDIA全球首發了新場景“拂雲庭”,是全球首款實機搭載了路徑光線追蹤技術的遊戲,通過直接照明 (RTXDI)、像素完美的陰影、令人驚歎的反射和之前看不到的水面折射,來達到如照片般逼真的細節,從而實現真假難辨的效果。

從實機截圖來看,畫面中的各種細節清晰可見,《逆水寒》幾乎突破了網遊畫質天花板,對於玩家來說是一件讓人非常激動的事。

當然,使用該副本打造的DLSS3測試DEMO也比較誇張,光追效果直逼電影畫面,對GPU的壓力堪稱變態,就連RTX 4090在4K無DLSS的設置下也只有17fps,開啓DLSS3性能模式後,幀率直接提升了接近4倍達到了84fps,而沒有光流加速器的RTX 3090 Ti在4K+DLSS性能模式下只有25fps,RTX 4090足足領先了236%!

由此可見,遊戲中光追特效越多越複雜,DLSS3帶來的性能提升幅度越大,因此要面對未來的全景光追遊戲大作,擁有光流加速器支持DLSS3的RTX 40系列顯然是必備之物。《Lyra》對於顯卡的壓力相對較小,而在開啓DLSS3和幀生成之後,RTX 4090相對RTX 3090 Ti也有最多約65%的幀率優勢。

當然呢,大家比較關心的就是DLSS3的幀生成帶來的延遲問題。我們通過NV的FrameView工具記錄了在開啓關閉時的延遲數據。

《賽博朋克2077》中,在原生4K模式下,平均PC延遲爲83ms,而開啓DLSS3後,平均延遲則只有35ms,Reflex帶來的延遲降低非常明顯。

《逆水寒》測試中,由於幀率較低,原生4K下的平均延遲高達367ms,而開啓DLSS3後,平均延遲則降低到60ms,同樣有非常明顯的降低。

在《Lyra》Demo中則可以一窺未來fps遊戲中加入DLSS3的延遲表現,可以看到,原生模式下的延遲達到了60ms,而開啓DLSS3後,平均延遲則已經降至了28ms。

從這樣來看,玩家應該是不用太擔心DLSS3的幀生成帶來的延遲增長問題。

我們還簡單比較了一下DLSS3加持的遊戲畫質。從圖中可以看到,經過AI機器學習,目前DLSS對於畫質的優化已經比較出色了,就算是注重性能的DLSS性能模式,畫面的銳利程度和細節甚至都好於關閉DLSS的原生畫面(注意看車尾燈的紋理),這也是爲什麼NVIDIA也推薦大家在4K分辨率下選擇DLSS3性能模式的原因。

從《逆水寒》的對比畫面也可以看出,DLSS3性能模式下的畫面質量同樣非常優秀,有着不輸原生畫質的表現。從觀感上來說甚至略好於原生畫面。這樣來看,DLSS3也確實做到了畫質與高幀率兼得。

4K/144Hz流暢跑3A時代已來臨

從前面的測試來看,RTX 4090已經可以實現以4K/高畫質實現高幀率遊戲表現,而顯示器市場中,4K/144hz的高端顯示器也開始逐漸普及,成爲發燒玩家的首選。對於購買RTX 4090旗艦GPU的玩家來說,搭配一臺4K/144Hz的電競顯示器毫不浪費,比如我們測試時使用的這臺AGON PD32M。

PD32M是AGON聯合Porsche Design設計工作室定製的高端電競顯示器,其特色是加入了保時捷外觀設計,從顯示器前後的保時捷Logo,到獨特的保時捷專屬無線人機控制器,都透露着獨一無二的“超跑”血統。顯示器背後還搭載AGON電競Light FX音樂律動炫彩氛圍燈, 擁有13種燈光秀及超10萬種色彩隨心設定,電競氛圍感拉滿。

支架和底座部分採用一體式設計,還極具創意的融合進了保時捷汽車輪轂元素,看起來有種流線美感,支架支持150mm升降、-5°~23°俯仰調節、±28°左右旋轉調節以及±90°的垂直旋轉調節,遊戲/設計隨時切換。顯示器整體採用與公版RTX40顯卡相同的黑灰配色,相比一般的電競顯示器更顯沉穩,偏向商務的中性氣質讓它能夠適應包括辦公設計在內的各種使用場景。

參數方面,AGON PD32M堪稱“性能怪獸”,顯示器配備一塊31.5英寸4K UHD分辨率面板,配合僅2mm的三邊微邊框設計,可以提供更大的畫面瀏覽區域及更優秀的觀看沉浸感。得益於RTX40顯卡強大的性能,如果你更偏向遊戲畫質,完全可以在4K分辨率下的遊戲中繼續拉高渲染比例來獲得更細膩的畫面表現。

顯示器背光采用全陳列直下式Mini LED背光技術,擁有由3456顆LED顆粒組成的1152分區獨⽴背光控制,支持VESA DisplayHDR 1400認證以及97% DCI-P3和100% sRGB的廣色域覆蓋。現在的3A遊戲普遍支持HDR畫面,特別是當開啓光線追蹤效果後可以呈現類似真實環境中的視覺體驗。比如在《賽博朋克2077》中雨天積水處的反光與陰暗的巷道就能夠很好地還原夜之城光影交錯的氛圍感。而在觀看HDR視頻時,畫面的亮部和暗部細節都得到清晰展現,帶來很不錯的畫面沉浸感。

既然是爲了搭配性能強大的RTX40顯卡使用,那麼除了高分辨率同時也要求顯示器具有高刷新率。AGON PD32M擁有144Hz的電競級別刷新率,GTG灰階響應時間僅1ms,連接到顯卡的HDMI 2.1後即可實現無損4K 144Hz的畫質傳輸。配合RTX40顯卡在DLSS 3中的Reflex 1.6,可實現超低系統延遲。我們在遊玩《堡壘之夜》《守望先鋒》等首批Reflex 1.6的遊戲時,配合顯示器自帶的電競調整功能,畫面表現流暢無延遲。如果你正好想升級新一代的RTX40GPU,那麼能提供極佳畫質且流暢順滑遊戲體驗的AGON PD32M電競顯示器絕對能夠滿足你的要求。

生產力性能翻倍,第八代NVENC AV1雙編碼器帶來效率飛躍

對於設計師用戶來講,NVIDIA Studio那可是太熟悉了,而擁有24GB GDDR6X大顯存的RTX RTX 4090除了遊戲之外,也將會有不少用戶將其作爲生產力工具的首選,CUDA生態也一直是行業標準之一,那這次RTX 4090有多少提升呢?

SPEC包含了大量的工業軟件測試項目,在最新的2020 v3.1版本中,RTX 4090相對於RTX 3090 Ti的提升相當明顯。整體的提升符合和遊戲中的提升比較接近,大部分測試都擁有50%以上的提升。其中Energy能源測試集的提升最大,是RTX 3090 Ti的2.64倍。

常規的3D渲染軟件方面,Blender Benchmark 3.3中,RTX 4090在三個測試場景都有非常明顯的提升,其中monster和classroom相對RTX 3090 Ti實現了性能翻倍,而junkshop也有64%的提升。

RTX 4090在V-Ray中的表現也非常不錯,無論是使用RTX還是CUDA相對於3090 Ti都能實現翻倍的渲染效率提升。再加上V-Ray和NVIDIA最近合作很緊密,GPU渲染的全新時代應該會來得更快一些吧。同樣,在OC渲染器這邊,無論開關RTX,RTX 4090相對於3090 Ti的提升也都在80%以上。

相信還有很多小夥伴比較關心視頻剪輯方面的性能提升。除了CUDA數量的提升,新的第八代NVENC編碼器特別是雙編碼器設置也比較有意思,在視頻轉碼方面會有比較亮眼的表現。當然,這些新的改進還需要軟件的支持,後續在有了NVIDIA專爲創作者提供的Studio驅動後,我們還將繼續完善這部分的測試。

從PugetBench測試來看,即使當前Premiere Pro版本還不能直接支持雙編碼器,但RTX RTX 4090 相對於RTX 3090 Ti依舊有明顯的性能提升。而達芬奇17同樣還不支持雙編碼器,但在其測試中的提升也非常明顯,達芬奇對GPU的優化還是比較不錯的。需要注意的是,PugetBench是一個包括了處理器、內存、GPU等的整體測試,僅看整體得分提升就有這麼大,可以得出GPU部分的提升還是不小的。

達芬奇18提供了支持雙編碼器和AV1的預覽版本,我們在這裏可以獲得雙編碼器的編碼輸出性能展示。

打開任務管理器,我們可以看到GPU這裏,RTX 4090是有Video encode和Video encode1兩個編碼器的,達芬奇輸出時,兩個編碼器都是有較高的佔用的。

從測試來看,將同樣的4K和8K兩段Prores422HQ的視頻分別導出成H265,RTX 4090所用的時間不到RTX 3090 Ti的一半。

而AV1編碼由於3090 Ti不支持,所以這裏沒法比較。但是我們同樣可以看到,RTX 4090在編碼4K AV1視頻時,所用的時間和H265是一樣的,8K則稍微慢一點,AV1編碼的整體效率還是非常高的。

除了編碼,達芬奇在解碼、特效和AI方面對GPU也有很好的支持,比如說我們用達芬奇裏廣受好評的MagicMask魔法遮罩做一個簡單的跟蹤,RTX 3090 Ti需要需用到28秒才能完成,而RTX 4090則只需要17秒,效率上的提升也是非常明顯的。

這次還有一個使用非常廣泛的國產剪輯軟件在老黃的發佈會上亮相,那就是剪映專業版。它率先支持了RTX 40系的雙編碼器和AV1輸出。現在官網上已經能下到這個測試版。

從測試來看,在使用剪映專業版版輸出H265的時候,RTX 4090確實也做到了相較於RTX 3090 Ti效率翻倍,AV1的輸出時間同樣和輸出H265差不多,用於非常高的效率。

從測試來看,對於3D設計師或者視頻特效與剪輯工作者來講,從RTX 3090 Ti升級到RTX RTX 4090基本上就等於獲得了高出一倍的處理效率,顯然是非常值得的。

功耗溫度與超頻測試

最後再來看看溫度和功耗的表現。RTX 40系列採用了TSMC 4N製造工藝,頻率和能效都相對上代大幅提升,這也讓它的默認GPU頻率就非常高,而且有輕鬆衝擊3 GHz的潛力。而且本次RTX 4090 FE誇張的散熱器體積,也爲不錯的溫度表現打下了基礎。

在室溫26℃的室內,使用FurMark連續考機半小時,可以看到GPU溫度爲70℃左右,GPU節點溫度爲78℃左右。使用TimeSpy穩定性測試考機時,FE版的溫度表現和Furmark考機時差不多,GPU最高頻率可以跑到2760MHz。而實際遊戲中因爲負載不會一直處於最高狀態,所以GPU的溫度一般都在60多度。

另外,本代FE版還加強了顯存散熱,可以看到即使連續考機,HWINFO報告的顯存節點溫度也只有74℃左右,相比上代FE散熱表現優秀了不少。

功耗方面,在FurMark單考GPU時,GPU-Z報告的顯卡整卡功耗爲440W~450W左右,從電源上的功耗儀顯示整機功耗爲570W左右。在遊戲中因爲有處理器的的加入,整機功耗則在600多瓦。整體來看,功耗方面RTX 4090相比之前RTX 3090 Ti並沒有明顯增長,不超頻的旗艦平臺使用1000W電源也是能夠hold住的。何況這一代還改進了供電,不會像上代那樣出現劇烈的峯值電壓和電流波動,高負載供電更平穩,玩家們應該無需擔心。

我們也小超了一下,經過簡單的調試,解鎖功耗和溫度上限,我們這塊RTX 4090FE可以往上拉285MHz的頻率,此時加速頻率爲2805MHz。

如果跑TimeSpy Extreme的話,最高頻率可以上到3060MHz,穩定運行則在3030MHz左右,此時顯卡的最高整板功耗則可以達到530W左右。有着新工藝的加持,感覺RTX 4090是目前最容易上到3GHz的GPU了。

這時候TimeSpy Extreme的跑分成績相比之前可以提高接近800分,提升幅度在4%左右。

總結:光追時代的性能飛躍,次世代硬件發展的新探索

基於TSMC 4N工藝打造的新一代NVIDIA Ada Lovelace 架構GPU,讓RTX 40系列相對於上代RTX 30繫有着性能上的飛躍,除了從製程工藝獲得的超大芯片規模與高頻率增益之外,第三代RT Cores和第四代Tensor Cores也大放異彩。NVIDIA一直走在圖形業界的前端,在新技術的演進上NVIDIA還是非常認真且激進的。

全新加入的光流加速器,讓DLSS3技術的AI光學多幀生成得以實現,從而大幅增加遊戲幀率,最終帶來2~4倍的光追遊戲性能提升,讓4K極致光追遊戲以電競級幀率流暢運行變得輕而易舉,也讓玩家可以從容應對未來畫面更加真實的全景光追遊戲與8K超極清遊戲。它從另一個方面嘗試解決光線追蹤對硬件性能的恐怖需求,通過神經網絡渲染爲未來的硬件發展方向進行了探討,並獲得了不錯的效果。

單看RTX 4090的性能,就已經能夠實現讓3A大作跑在4K/144Hz的遊戲幀率了,說實話之前是沒想到這一天能來的這麼快的。而在DLSS3的加持下,確實也能最高特效光追跑4K/144fps,GPU的性能表現“趕上”了顯示器能提供的性能呈現,從另一個方面來看的話,RTX 40系列也將爲相對疲軟的硬件市場帶來活力。

當然,如果你覺得DLSS3對於本身就能在4K下流暢跑光追的RTX 4090來說沒那麼驚豔,但是如果想一下,這個技術是RTX 40系全系搭載的,如果放到未來將要發佈的甜品卡上,對於玩家和市場的觸動就非常有意思了。所以DLSS3毫無疑問是這代的重點技術了。

此外,從前面的測試也可以看到,RTX 4090在3D渲染輸出與視頻剪輯方面相對上代也有成倍的性能增幅,對“時間就是金錢”的生產力應用來講真的稱得上是必買的頂級高效工具。

值得一提的是,本次NVIDIA將限量推出GeForce RTX 4090 FE版,於北京時間10月12日晚9點在京東首發上市,旨在爲鍾愛FE版設計的發燒級玩家帶來無與倫比的體驗。屆時玩家可以選購來自NVIDIA FE版和來自頂級顯卡供應商的RTX 4090 GPU標頻版和超頻版。

更多遊戲資訊請關註:電玩幫遊戲資訊專區

電玩幫圖文攻略 www.vgover.com