由於產品線佈局的變換,GeForce RTX 4070 Ti一不小心成了70系的首發,但論價格和定位而言,不含Ti的GeForce RTX 4070在當下更具吸引力,特別是萬元以內臺式機,當下急缺一款能確保2K分辨率光追最高畫質下輕鬆越過100FPS門檻的產品。而在歷經GeForce RTX 4090到RTX 4070 Ti補全,以及RTX 40全系Laptop GPU登錄筆記本後,我們終於迎來了NVIDIA GeForce RTX 4070的登場,正式邁向探索GeForce RTX 40系列主流體驗之路。
那麼GeForce RTX 4070將會通過什麼樣的表現回應玩家們的期待,在遊戲,內容製作,以及時下大熱的AI創作上的性能表現如何,4799元的定價又能否與性能配合處讓人滿意的性價比?隨着性能解禁,現在就讓我們奉上公版NVIDIA GeForce RTX 4070 Founders Edition首發評測。
再遇AD104
沒有想到AD104是我們近期遇到最多的GPU型號,從GeForce RTX 4070 Ti到GeForce RTX 4080 Laptop GPU均源自對AD104針對細分定位的修改。
AD104與同門師兄一樣,採用臺積電4N英偉達定製工藝打造,芯片尺寸295mm²,晶體管數量爲358億個,相對AD102而言屬於中型芯片。因此AD104也保留了Ada Lovelace架構的完整結構,即GPU中包含了若干個GPC(Graphics Processing Clusters,圖形處理集羣),GPC下包含若干個TPC(Texture Processing Clusters,紋理處理簇),再往下就是SM、CUDA、RT Core、Tensor Core等等。每個GPC之間包含的TPC數量相等,當GPU進行定位區分的時候再進行GPC、TPC的物理屏蔽實現。
完整的AD104包含5個GPC,每個GPC包含6組TPC,每組TPC包含2個流式多處理器(Streaming Multiprocessors,SM)。
SM是可以看成諸多核心的集合體,從Maxwell架構開始引入了處理塊(Sub-Core)概念。每個SM包含4個處理塊,每個處理塊包含1個64KB寄存器堆,1個L0指令緩存,1個Warp調度器,1個調度單元,4個加載/存儲單元,1個特殊功能單元(Special Function Unit,SFU)用於執行超越函數指令(比如正弦、餘弦、倒數、平方根等)和圖形差值算法指令。每個SM下的128個CUDA Core隨處理塊分成4組,每組CUDA由16個專門用於FP32的CUDA Core,16個可以在FP32和INT32之間切換的CUDA Core組成。
更重要的是,由於工藝和架構的提升,Ada Lovelace架構擁有龐大的L2緩存設計,根據定位的不同,GeForce RTX 40系列相對上一代GeForce RTX 30系列在GPU L2緩存上擁有數倍乃至十幾倍的容量提升,這是相當誇張的。
更大的L2緩存有助於提高隨機存取的命中率,而更快的L2緩存能提升運算單元的效率。AD104中所有GPC都需要通過L2緩存完成所有訪存操作,因此龐大的L2緩存搭配每個SM下均包含4個第四代Tensor Core,1個第三代RT Core,成爲後續遊戲實時光線追蹤和DLSS 3性能提升的重要前提。
讓我們把目光放到GeForce RTX 4070。GeForce RTX 4070使用的AD104 GPU版爲AD104-250-A1,採用了4個GPC結構,並在其中的1個GPC中屏蔽了1個TPC,從而獲得了23個TPC,46個SM,共計擁有5888個CUDA Core,184個第四代Tensor Core和46個第三代RT Core,以及184個紋理單元和64個ROP Units。
值得注意的是,在內存結構上,GeForce RTX 4070同樣擁有6個32-bit內存控制器組成的192-bit內存接口,並搭配12GB GDDR6X顯存,顯存帶寬與GeForce RTX 4070 Ti是相同的504GB/s。
唯獨可惜爲了與Ti進行區分,在GeForce RTX 4070視頻編解碼引擎上僅使用了1個第八代NVENC和1個第五代NVDEC,雖然同樣擁有12GB顯存,但無法開啓雙AV1編碼器。這樣的設計主要用於區分不同定位GPU之間的專業創作性能,例如專業版的AD104中會給與2個NVENC和4個NVDEC以加速視頻編解碼性能,但對於遊戲玩家而言,這樣的設計變化在遊戲中是不會感受出來的。
至此,我們基本掌握了GeForce RTX 4070的大致結構,作爲參考,這裏羅列出歷代70系列的大致規格作爲對比。
迴歸小巧Founders Edition
迴歸到GeForce RTX 4070 Founders Edition本體。在看慣了三槽的RTX 40系列,雙槽的GeForce RTX 4070 Founders Edition顯得格外小巧。事實上也確實如此,GeForce RTX 4070 Founders Edition不僅厚度縮減到了2槽,長度也控制到了336mm,可以輕鬆安裝到標準ATX機箱,或者諸如NUC Extreme這樣的小型化機箱中。
同時我們也看到GeForce RTX 4070對功耗進行了控制,以進一步提升能耗比,僅有200W的TGP無論相比GeForce RTX 2070 Super的215W還是GeForce RTX 3070 Ti的290W都小了不少。因此,即便GeForce RTX 4070 Founders Edition使用了16pin(12VHPWR)接口設計,但隨機包裝中僅配送了2x8pin轉接線,可見對功耗需求不高。
作爲Founders Edition,GeForce RTX 4070 Founders Edition同樣也繼承了前輩們的很多傳統,比如使用了與旗艦GeForce RTX 4090 Founders Edition相同的設計元素、前後雙軸風扇、鏤空的壓鑄件鋁製散熱片設計。相對上一代GeForce RTX 3070 Founders Edition,RTX 4070在散熱結構上也更爲緊湊,並在GPU貼合底座使用了銅基座設計,並通過4根熱管將熱量快速擴展到鋁製散熱片中,以提升冷卻性能。
不僅如此,GeForce RTX 4070 Founders Edition的雙軸風扇也提供了更好的氣體流動性,能夠提供比GeForce RTX 3070 Ti FE更強的20%氣體流動提升。
同樣,12GB GDDR6X的耗電與發熱量是不能忽視的。GeForce RTX 4070 Founders Edition使用了8層PCB板以確保給GPU和vRAM提供乾淨的店裏,並使用了6相電源供電設計,其中2相被設計爲專爲21Gbps的GDDR6X供電。
在接口配置上,GeForce RTX 4070 Founders Edition與同門師兄相同,包括3個DisplayPort 1.4a和1個HDMI 2.1接口。
在實際的壓力測試狀態下,可以看到GeForce RTX 4070 Founders Edition GPU的最高溫度爲65℃,最高功耗爲200W。如果這時候用紅外線進行檢測,可以發現在室溫23℃的環境下,最高溫度64.3℃,GeForce RTX 4070 Founders Edition表面溫度參考如下。
當然在實際遊戲體驗中,GeForce RTX 4070 Founders Edition的實際功耗會低於TGP,這裏我們對5款遊戲的1080p、2K、4K分辨率最高畫質下RTX 4070實際功耗進行比較,可以看到2K分辨率下的功耗表現不到190W,唯有4K最高畫質下更容易接近RTX 4070的TGP規格。由此也證明了Ada Lovelace架構的能耗比上的優越性。
2K遊戲無敵手
解決完散熱和架構的問題,讓我們進入喜聞樂見的跑分環節。照例先搬出我們的測試平臺,這裏爲了確保GeForce RTX 4070性能完全釋放,這裏使用了英特爾Core i9-13900K,七彩虹Colorful CNV DDR5-6000 16GB x2,ROG MAXIMUS Z790 HERO,Thermaltake TPI RGB PLUS 1250W作爲基準,同時也引入GeForce RTX 2070 Super、GeForce RTX 3070 Ti作爲對比。
在檢驗DirectX 11和DirectX 12項目中,主要使用3DMark Time Spy,3DMark Time Spy Extreme,3DMark Fire Strike Extreme,3DMark Fire Strike Ultra,Port Royal進行對比。可以看到GeForce RTX 4070在對比RTX 3070 Ti表現非常明顯,至少有20%的提升,對比RTX 2070 Super,差距更大,平均提升接近90%。
在主流常見的幾款常規的3A遊戲中,可以看到遊戲的表現與基準軟件測試的預期基本相同,GeForce RTX 4070在對比RTX 3070 Ti的提升大概20%左右,對比RTX 2070 Super提升則可以接近100%。
而隨着遊戲技術的快速迭代以及NVIDIA的大力推廣,新推出的遊戲重心已經放到了DLSS 3上。DLSS 3是一套包含了提升遊戲幀率、降低系統延遲的完整解決方案。它通過引入光流加速器(Optical Flow Acceleration,OFA)與DLSS相結合的辦法,構建出了一個更爲立體的分析方式,將卷積自編碼器的輸入源擴展到幾個部分,分別是:之前幀與當下幀,由光流加速器生成的光流場、遊戲運動矢量和深度等數據。這時候DLSS 3甚至承擔起渲染過程中7/8的工作,讓CPU和GPU進完成其中1/8的渲染即可,從而節省出大量的計算資源專注到更有用的地方。
這意味着遊戲一旦支持DLSS 3,那麼效率將是成倍的提升。但也需要注意,DLSS 3運行的前提是GeForce RTX 40的第四代Tensor Core,第三代以及第三代以前Tensor Core僅能支持到DLSS 2.X,即實現DLSS 3的部分功能,幀率提升雖然也很明顯,但幅度沒有DLSS 3來得更爲誇張。
這裏我們引入3DMark DLSS 2 2K、3DMark DLSS 3 4K、3DMark DLSS 3 8K進行對比。需要注意的是RTX 2070 Super與RTX 3070 Ti均不支持DLSS 3,在測試中不同分辨率均以DLSS 2進行。
這時候我們就能看到GeForce RTX 4070搭配DLSS 3的優越性了,如果對比RTX 3070 Ti,RTX 4070可以提升從80%到450%,而如果對比RTX 2070 Super,幀率更是能夠提升高達157%到929%,DLSS 3在高分辨率的流暢運行差距非常巨大,原因是RTX 3070 Ti和RTX 2070 Super在8K分辨率幀率只有個位數。
由於GeForce RTX 4070在2K分辨率下有不錯的表現,這裏我們着重在2K分辨率最高畫質下進行測試。目前爲止已經有超過50款遊戲宣佈支持DLSS 3技術,並有超過30款遊戲上市,其中大部分遊戲均爲3A大作。如果算上以往對DLSS支持的遊戲,則已經超過260款。還是那句話,顯卡儘可能買新不買舊。
在實際測試中,可以看到,GeForce RTX 4070相對RTX 3070 Ti提升有20%左右的提升,而相對GeForce RTX 2070 Super,提升則可以來到50%到120%。
DLSS 3帶來的另一個厲害之處則是降低系統延遲。DLSS 3在實現AI插幀的同時,勢必會導致系統延遲在一定程度上增加,導致關鍵操作和關鍵幀排在渲染序列尾端。不過NVIDIA在降低系統延遲上已經做了大量的工作,原本獨立於DLSS的Reflex技術直接集成在DLSS 3,也就是遊戲在開啓DLSS 3的同時,Reflex也被默認開啓,而不需要單獨設置。
這裏我們對數款遊戲進行系統延遲檢測,可以看到,在開啓DLSS 3之後,系統延遲可以降低10%到60%,當然也有與之前維持在同一水準的,但可以證明開啓DLSS 3之後不會對玩家的操作響應產生影響,並且還會有較爲明顯的幫助。
高舉AI大旗
AI創作已經成爲我們無法繞過的話題,特別是在GeForce RTX 40系列發佈之後,基於PC本地的深度學習與AI創作變得更爲輕而易舉。比如通過AI快速的創作全新內容,通過簡單的文字描述在本地繪出需要的創作場景圖片,並隨着AI工具交互設計愈發人性化,每個人觸碰AI幾乎變得唾手可得。
這裏我們以Stable Diffusion 2.1爲例作爲參考。Stable Diffusion是2022年推出的深度學習文本到圖像轉變的AICG工具,這套工具由初創公司Stability AI和非營利組織、學術人員共同合作開發,因此它相對需要收費的Midjourney有更好的開放性和擴展性,並提供一系列的插件實現更多功能,比如AI圖片修復、文本提示引導圖像,甚至是圖像翻譯等等,可以預見在未來會不斷融入更強大的功能。
Stable Diffusion運行的前提是需要至少8GB以上的顯存vRAM和AI性能足夠強勁的GPU進行,否則本地體驗不如直接購買雲端服務來的直接。
這裏我們利用一段固定的文字描述來引導Stable Diffusion 2.1爲我們創建20張符合描述的建築風景圖片。在UI界面中設置GeForce RTX 4070一次同時運算2張圖片,一共運行10次,即20張。每張圖片分辨率爲768x768分辨率,採樣步數設置爲50。
文字描述參考如下:
beautiful render of a Tudor style house near the water at sunset, fantasy forest. photorealistic, cinematic composition, cinematic high detail, ultra realistic, cinematic lighting, Depth of Field, hyper-detailed, beautifully color-coded, 8k, many details, chiaroscuro lighting, ++dreamlike, vignette
順帶說明,如果只使用Core i9-13900K根據文字描述創建其中1張AI圖片,至少需要花費11分鐘以上的時間,因此不再放在評測中比較。
在對比中,我們使用了GeForce RTX 4070與GeForce RTX 3070 Ti、GeForce RTX 3080 10GB進行參照,記錄下每個GPU花費的時間,並進一步推算出每分鐘生成的圖像效率(Images Per Minute)。
在實際對比中可以看到,GeForce RTX 4070能夠輕鬆實現於GeForce RTX 4080 10GB的性能,並且相比GeForce RTX 3070 Ti提升40%以上,也意味着同樣的成果,可以爲我們節省40%的時間。
另外一項AI測試則是基於AI提升圖像分辨率的ON1 Resize AI 2022,原理是對低分辨率圖片無損提升至高分辨率圖片,用於巨幅海報輸出,依靠AI性能可以獲得更快的出圖,並計算生成圖片的時間,數值越少意味着效率越高。
在實際測試中可以看到,GeForce RTX 4070相對GeForce RTX 3080 10GB提升15%以上的效率,而相對GeForce RTX 3070 Ti,效率更是能夠提40%以上。可見GeForce RTX 4070上的第四代Tensor Core搭配大容量L2緩存表現是相當出衆的。
即使你沒有創作內容的計劃,AI讓視頻清晰化的功能隨着新驅動發佈和GeForce RTX 4070的解禁得到進一步擴展,現在你可以NVIDIA控制面板-調整視頻圖像設置中找到名爲“RTX視頻增強”的選項。顧名思義,這是利用RTX Video Super Resolution (VSR)技術,通過AI、TensorCore來增強視頻播放質量,讓低分辨率視頻在4K分辨率屏幕上獲得更好的顯示效果,以增強視頻觀看體驗。
這項功能目前也已經開始實裝到4月12日以後更新的VLC播放器中,並且效果立竿見影。這裏我們分別開啓和關閉RTX視頻增強超分辨率選項,並播放一段1080p視頻,抓取兩個視頻的效果。
能夠輕鬆看到VSR ON之後畫面細膩感一下提升了一個檔次,同時從資源管理器也看到GeForce RTX 4070的GPU佔用率達到了50%,說明在質量4的情況下,將1080p視頻實時提升至4K分辨率是需要消耗不少運算資源。
左爲VSR OFF,右爲VSR ON
這裏我們不妨在將錄製的畫面放大到細節,左側原畫質下字體顯示模糊,而一旦VSR ON之後,字體立馬清晰了很多。現在這項功能已經能夠從VLC播放器上免費獲得,前提是需要有GeForce RTX 30或GeForce RTX 40以上的GPU。
左爲VSR OFF,右爲VSR ON
將內容製作進行到底
最後讓我們回到內容製作環節。無論是Intel高端CPU還是NVIDIA Studio驅動,不斷向消費級產品下放內容創作加速功能。憑藉着NVIDIA在行業內的影響,主流的專業軟件也已經向NVIDIA技術看齊。
前面我們提到,GeForce RTX 4070保留了1個NVENC和1個NVDEC,包含了AV1編解碼器的功能,AV1編碼器能比H.264編碼器效率高出40%。這意味着AV1編碼器能夠利用現階段可以進行1080p串流視頻的帶寬,實現1440p甚至更好的畫質,比如同樣的帶寬佔用下,在嗶哩嗶哩可以輕鬆播放2K或者4K的視頻,而播放4K的帶寬也將可以用來播放更高分辨率的內容。
另外一個不得不提的就是NVIDIA Omniverse Create。NVIDIA Omniverse作爲視覺和數字孿生工業模擬應用的入庫哦,已經打破了諸多專業軟件之間不兼容的限制,旨在統一虛擬空間下模擬與現實相同的環境與場景,加速工業、創意、內容製作的效率。
不僅如此,NVIDIA Omniverse Create還引入了已經在好萊塢付諸應用的通用場景描述(USD)格式,並不斷添加更多的通用素材包,使得創作變得更爲輕鬆。因此NVIDIA Omniverse也被認爲是構建元宇宙最理想的入口之一。
這裏我們主要使用NVIDIA Omniverse Create分別在2K、4K分辨率下對Campfire、Flowers4、Incense、Jade Tiger、Warehouse五個場景進行預覽測試,並計算平均值,可以看到在2K分辨率下,GeForce RTX 4070相比GeForce RTX 3070 Ti性能提升160%,相對GeForce RTX 3080 10GB提升也有90%,主要原因是DLSS 3幫助加速了整個創作場景的運行。
同樣在4K分辨率預覽模式下,GeForce RTX 4070相比GeForce RTX 3070 Ti性能提升140%,相對GeForce RTX 3080 10GB提升也有100%。
接下來是畫面渲染測試。我們先使用了Blender Benchmark檢測GeForce RTX 4070的輸出能力,在Moster、Junkshop、Classroom三個場景中,可以看到GeForce RTX 4070相比GeForce RTX 3070 Ti性能提升40%,相對GeForce RTX 3080 10GB提升爲20%左右。
同樣在V-Ray 5 Benchmark中會分別考驗CUDA和光線追蹤性能,GeForce RTX 4070相比GeForce RTX 3070 Ti性能提升25%,相對GeForce RTX 3080 10GB提升大約爲10%。
Octane Render RTX是同樣是測試GPU的光線追蹤性能表現,在一個複雜場景下考驗GPU每秒產生的樣本率,GeForce RTX 4070相比GeForce RTX 3070 Ti性能提升40%,相對GeForce RTX 3080 10GB提升大約爲10%左右。
SPECviewperf 2020則是通過建模對象或渲染體的旋轉和縮放檢視,來檢測在各種專業設計領域(包含能源勘探、醫學、建築設計、機械設計、汽車設計、飛機設計等各種領域)的圖形性能,也是工程人員在日常中最常遇見的場景,其中包括3dsmax、Catia、Creo、Energy、Maya、Medical、SNX、Solidworks等主流軟件。
可以看到GeForce RTX 4070相比GeForce RTX 3070 Ti性能提升200%,相對GeForce RTX 3080 10GB提升大約爲10%左右。
寫在最後
在一番體驗之後,GeForce RTX 4070 Founders Edition着實給人留下了不錯的印象,不僅僅是強大的DLSS 3技術爲其帶來了2K分辨率開啓最高畫質光追下的流暢體驗,強大的AI性能,讓GeForce RTX 4070輕鬆遊刃於AI內容創作、RTX視頻增強以及諸多專業軟件之中,已經可以滿足平常使用時的絕大多數場景。
更重要的是,GeForce RTX 4070 Founders Edition小巧的身形與低功耗表現,迴歸到了大部分玩家印象中的顯卡形態,更輕易安裝到主機箱中,不再爲空間與走線所煩惱。同時也帶來了2K分辨率輕鬆超過100FPS的表現,對於GeForce RTX 2070 SUPER玩家而言,升級帶來的收益相當巨大。
同時Founders Edition作爲公版的影響力,也勢必帶領一衆AIC重新審視外觀設計。畢竟小巧、高能效比、高性價比,這也是更多數主流玩家所需要的。
更多遊戲資訊請關註:電玩幫遊戲資訊專區
電玩幫圖文攻略 www.vgover.com