如果查閱Steam硬件排行版,會發現NVIDIA的60系列GPU幾乎屠榜顯卡排行的TOP 10,與旗艦級GPU相同的技術與功能,再加上不錯的性價比,成爲主流機型的合理選擇。
時間來到Ada Lovelace架構量產成行的第8個月,在各家旗艦級、高端硬件陸續發佈完畢之後,是時候挑起主流升級之戰了。NVIDIA在五月中旬一口氣發佈了GeForce RTX 4060 Ti 8GB、GeForce RTX 4060 Ti 16GB和GeForce RTX 4060三款產品,其中GeForce RTX 4060 Ti 16GB和GeForce RTX 4060兩款會在7月份陸續發佈,而本篇文章主角GeForce RTX 4060 Ti 8GB的性能解禁,就在今晚。
相比RTX 2060 SUPER和RTX 3060 Ti,GeForce RTX 4060更新幅度不小,例如除了性能明顯提升,還帶來32MB L2緩存,AI內容創作加速,1080p分辨率高幀率和低延遲等特性。
對於GeForce RTX 40系列GPU的技術實力我們已經有目共睹,問題是GeForce RTX 4060 Ti 8GB能否挑起主流臺式PC的GPU重任,3199元的官方定價是否值得我們立刻下單,還是繼續等待、多花錢購買7月份的16GB版本?現在就讓我們拿出官方信仰版本的GeForce RTX 4060 Ti 8GB Founders Edition,首發評測就此奉上。
全新的AD106
在測試GeForce RTX 4060 Ti 8GB FE之前繞不過全新的AD106,這塊GPU目前覆蓋GeForce RTX 4060 Ti和GeForce RTX 4060系列共三個型號,並且GeForce RTX 4060 Ti 8GB和GeForce RTX 4060 Ti 16GB使用的是完全相同的GPU規格,但由於16GB版本將會多出一倍的顯存,因此在PCB設計上也會截然不同。
與其他Ada Lovelace架構GPU一樣,AD106使用的是臺積電4N英偉達定製工藝,芯片面積更小,爲190mm2,但保留了架構的完整設計,比如GPU中包含了若干個GPC(Graphics Processing Clusters,圖形處理集羣),GPC下包含若干個TPC(Texture Processing Clusters,紋理處理簇),再往下就是SM、CUDA、RT Core、Tensor Core等等。
完整的AD106擁有3個GPC,有點類似於CPU中的3個獨立核心,每個GPC同樣包含了6組TPC,每組TPC包含2個流式多處理器(Streaming Multiprocessors,SM)。其中SM是可以看成諸多核心的集合體,從Maxwell架構開始引入了處理塊(Sub-Core)概念。每個SM包含4個處理塊,每個處理塊包含1個64KB寄存器堆,1個L0指令緩存,1個Warp調度器,1個調度單元,4個加載/存儲單元,1個特殊功能單元(Special Function Unit,SFU)用於執行超越函數指令(比如正弦、餘弦、倒數、平方根等)和圖形差值算法指令。
此外,每個SM下的128個CUDA Core隨處理塊分成4組,每組CUDA由16個專門用於FP32的CUDA Core,16個可以在FP32和INT32之間切換的CUDA Core組成。
多樣的組合讓AD106完整形態下擁有4608個Core Core、144個紋理單元,48個ROPs和36個SM,對應的,也擁有144個第四代Tensor Core和36個第三代RT Core。每個SM包含128KB L1緩存,總共擁有32MB L2緩存。
AD106
不過要注意的是,GeForce RTX 4060 Ti 8GB Founders Edition並非使用的是完整的AD106,它所用的版本爲AD106-350-A1,GPC結構上沒有做刪減,同樣使用了3個GPC,不過有一組GPC中屏蔽了1個TPC,即使少了2個SM。因此GeForce RTX 4060 Ti 8G FE擁有17個TPC,34個SM,4352個CUDA Core,從而着色器Shaders性能達到22 TFLOPs。
與此同時,GeForce RTX 4060 Ti 8GB FE還擁有136個第四代Tensor Core,Tensor FP8/INT8的稀疏度性能(Sparsity)達到353 TFLOPs,以及34個第三代RT Core,光追性能爲51 TFLOPs。並擁有136個紋理單元,48個ROPs。基礎頻率2310 MHz,最高頻率可達2535 MHz。後續OC版的GeForce RTX 4060 Ti 8G FE主要會在散熱和GPU頻率上做文章,以獲得更高的效能。
AD106-350-A1
值得說明GeForce RTX 4060 Ti 8G FE的L2緩存設計相對完整版AD106沒有做任何縮減,同樣是32MB容量,是RTX 3060 Ti的8倍。
更大的L2緩存有助於提高隨機存取的命中率,而更快的L2緩存能提升運算單元的效率。內核在計算的過程中會不斷的調用存儲子系統的數據,順序是L1緩存、L2緩存、顯存、內存,越往後響應速度越慢。爲了趕上快速刷新的遊戲畫面,GPU所有的數據會經過預加載放置在緩存中,因此緩存容量越大,下一幀所需要素材的命中率就越高,GPU跑腿尋找數據所需要的時間就更短,效率就更高。
但由於緊貼着核心的L1緩存設計決定了存儲空間不可能做得太大,提升L2緩存容量就稱爲了理想選擇。因此我們就會看到GeForce RTX 4060 Ti 8GB FE在L2緩存空間相對RTX 3060 Ti增大8倍之後,命中率得到了大幅提升,需要從顯存、內存中尋找素材的概率大幅縮減,從提升了整體性能。
不僅如此,AD106中所有GPC都需要通過L2緩存完成所有訪存操作,龐大的L2緩存搭配每個SM下包含的4個第四代Tensor Core,1個第三代RT Core,都將成爲後續遊戲實時光線追蹤和DLSS 3性能提升的重要前提。這也是爲什麼,即使GeForce RTX 4060 Ti 8GB FE即使只是用了了128-bit 8GB DDR6顯存,實際性能也仍然會明顯提升。
事實上GeForce RTX 4060 Ti 8GB FE使用的GDDR6顯存本身經過優化也有一定幅度提升,顯存頻率達到9000MHz,顯存數據傳輸率爲18Gbps,也明顯優於RTX 3060 Ti的14Gbps的GDDR6。
最後我們將近幾代GeForce RTX 60系列的GPU大致規格整理如下:
小巧的Founders Edition信仰
公版Founders Edition給機箱帶來的沉穩格調在各式RGB AIC卡設計中獨樹一幟,但購買去到不多,比如GeForce RTX 4060 Ti 8GB Founders Edition國內官方購買渠道只能是去京東刷人品。相比GeForce RTX 4090 FE、RTX 4080 FE這些龐然大物而言,GeForce RTX 4060 Ti 8GB FE外形相當小巧,終於迴歸到了主流對顯卡尺寸的認知。
GeForce RTX 4060 Ti 8GB Founders Edition的長度控制在240mm左右,雙槽位設計,不僅可以輕鬆安裝到標準ATX機箱,或者諸如NUC Extreme這樣的小型化機箱中。
頂端的電源則與同門師兄一樣沿用了最新的16pin(12VHPWR)接口,隨機附送的是1個16pin轉8pin的電源線,這樣設計的目的是爲了更好的適配新舊版電源,同時也表明了Founders Edition對新標準支持的態度。
在散熱設計上,GeForce RTX 4060 Ti 8GB FE使用了與高端FE顯卡相同的散熱設計元素,包括前後雙軸風扇、鏤空的壓鑄件鋁製散熱片設計,GPU貼合底座使用了銅基座設計,通過熱管將熱量快速擴展到鋁製散熱片中,以提升冷卻性能。Founders Edition的雙軸風扇也提供了更好的氣體流動性,能夠提供比上一代提升20%的氣體流動提升。
前面對比表格中我們可以看到,GeForce RTX 4060 Ti 8GB FE的TGP爲160W,但實際功耗要遠低於此,NVIDIA給出的參考爲,在閒置待機狀態下,GeForce RTX 4060 Ti 8GB FE功耗爲7W,使用AV1解碼播放視頻的功耗爲13W,遊戲平均功耗(AGP)爲140W。
爲此我們也統計了一些實際遊戲中的顯卡功耗,可見GeForce RTX 4060 Ti 8GB FE的能效比是非常高的。
同時還得益於更高效能的8GB GDDR6,實際使用中也遠低於RTX 4070 FE以上所使用的GDDR6X。因此在壓力測試下,GPU核心溫度爲在69℃左右,紅外線測溫表現如下:
最後在接口配置上,GeForce RTX 4060 Ti 8GB FE則延續了GeForce RTX 40系列的配置,包括3個DisplayPort 1.4a和1個HDMI 2.1接口,實現多屏輸出沒有壓力。
目標1080p,火力全開
由於光線追蹤技術的引入和主流3A大作的推崇,高分辨率運行全特效光追也意味着需要高昂的GPU成本。對於主流電競顯示器而言,1080p高刷新屏幕往往是兼顧性價比的最優選,而更多數玩家在升級的時候可能只會考慮GPU的單一配件升級,給GeForce RTX 4060 Ti 8GB FE定位1080p光追高畫質提供了充足的理由。因此在測試中,我們將主要圍繞1080p光線追蹤最高畫質進行。
在測試開始之前,讓我們按照慣例放出測試平臺,硬件陣營包括英特爾Core i9-13900K,七彩虹Colorful CNV DDR5-6000 16GB x2,ROG MAXIMUS Z790 HERO,Thermaltake TPI RGB PLUS 1250W,同時也引入上一代GPU作爲對比。
在檢驗DirectX 11和DirectX 12項目中,主要使用3DMark Time Spy,3DMark Time Spy Extreme,3DMark Fire Strike Extreme,3DMark Fire Strike Ultra,Port Royal進行對比。GeForce RTX 4060 Ti相對GeForce RTX 3060 Ti的提升幅度在14%左右,相對GeForce RTX 2060 SUPER則提升50%到70%。
另外我們也注意到GeForce RTX 4060 Ti 8GB FE使用的是PCIe 4.0 x8通道,而非x16,在PCB針腳上我們也可以看到GeForce RTX 4060 Ti 8GB FE後半截是完全沒有電路的。
有同學會擔心PCIe所提供代管數量不足。而實際上在早期旗艦級GPU也僅僅用足PCIe 3.0 x16,也僅僅相當於PCIe 4.0 x8,因此對於GeForce RTX 4060 Ti 8GB FE而言問題不大。這裏不妨我們使用3DMark PCIe帶寬測試作可以看到帶寬爲12.57GB/s,鑑於RTX 2080 Ti的PCIe 3.0 x16也沒有喫滿,GeForce RTX 4060 Ti同樣帶寬是可以接受的。
在常規的3A遊戲中,與3DMark的測試結果類似,GeForce RTX 4060 Ti相對GeForce RTX 3060 Ti的平均提升幅度在18%左右,相對GeForce RTX 2060 SUPER則提升60%。
GeForce RTX 4060 Ti作爲一款GeForce RTX 40系列GPU,DLSS 3無疑是重頭戲。在DLSS技術推出近五年時間中,已經有超過300款應用和遊戲提供支持,而DLSS 3發佈數個月內,支持的遊戲和應用已經超過30款,增長速度更快,提升效果也更明顯。
簡單的說DLSS 3是一套包含了提升遊戲幀率、降低系統延遲的完整解決方案。它通過引入光流加速器(Optical Flow Acceleration,OFA)與DLSS相結合的辦法,構建出了一個更爲立體的分析方式,將卷積自編碼器的輸入源擴展到幾個部分,分別是:之前幀與當下幀,由光流加速器生成的光流場、遊戲運動矢量和深度等數據。這時候DLSS 3甚至承擔起渲染過程中7/8的工作,讓CPU和GPU進完成其中1/8的渲染即可,從而節省出大量的計算資源專注到更有用的地方。
當然前提是,你必須要有一塊GeForce RTX 40系列GPU中的第四代Tensor Core提供硬件支持,此前的Tensor Core最高只能支持到DLSS 2.X。
而在3DMark DLSS功能測試中,我們就能看到DLSS 3的的優勢了。在2K分辨率下GeForce RTX 4060 Ti相對GeForce RTX 3060 Ti的提升幅度近70%,相對GeForce RTX 2060 SUPER則提升130%。而在4K分辨率下,提升幅度更誇張,分別達到90%和170%。
鑑於GeForce RTX 4060 Ti主要針對1080p分辨率遊戲,在實際的DLSS 3遊戲測試中,着重在1080p最高光線追蹤畫質下進行。
例如在《巫師3:狂獵》荒野地形中對光線追蹤的複雜場景處理提出了很高的要求,GeForce RTX 4060 Ti的提升幅度明顯,相對GeForce RTX 3060 Ti和GeForce RTX 2060 SUPER分別提升了80%和228%。
賽車遊戲《F1 22》和《極限競速:地平線5》自然是高幀率中流暢度和操控響應更能得到保障,GeForce RTX 4060 Ti相對GeForce RTX 3060 Ti和GeForce RTX 2060 SUPER分別提升了50%和100%。
有意思的是在《微軟模擬飛行》中,GeForce RTX 4060 Ti拉開了很大的差距,相對GeForce RTX 3060 Ti和GeForce RTX 2060 SUPER分別提升了100%和167%,主要得益於DLSS 3對地面建築的優化。
從整體而言,GeForce RTX 4060 Ti搭配DLSS 3在1080p分辨率下已經可以獲得大幅度提升,在測試的幾款遊戲中,相對GeForce RTX 3060 Ti和GeForce RTX 2060 SUPER在平均幀率上分別提升了60%和150%以上。
但同時不要忘了DLSS 3本身是一套自帶NVIDIA Reflex技術的方案,主要是解決利用AI插幀的時候避免關鍵操作和關鍵幀排在渲染序列尾端。目前已經有超過70款遊戲和應用加入到了對Reflex的支持中。而在DLSS 2.X時代,這項技術需要單獨開啓。而在支持DLSS 3的遊戲中,則是NVIDIA Reflex則是被默認開啓,不需要單獨設置的。
因此可以看到在支持DLSS 3的高幀率遊戲中,GeForce RTX 4060 Ti可以做到25ms左右的低延遲響應,而目前主流的十款射擊類遊戲中,也已經有8款遊戲提供了對NVIDIA reflex的支持,比如《Apex英雄》, 《使命召喚: 戰區2》, 《命運2》, 《逃離塔科夫》, 《堡壘之夜》,《彩虹六號:圍攻》和《無畏契約》等。
AI戰鬥力十足
GeForce RTX 4060 Ti 8GB FE的136個第四代Tensor Core其實非常值得一提,353 TFLOPs 的Tensor FP8/INT8稀疏度性能可以用來處理很多AI加速,甚至在16GB版本尚未發佈之前,AI用戶通過GeForce RTX 4060 Ti的紙面參數將其預判爲下一張高性價比的AI加速顯卡。
讓慣例搬出Stable Diffusion作爲參考。這是一款在2022年推出的深度學習文本到圖像轉變的AICG工具,不但免費,還具備強大的擴展能力,例如提供一系列AI圖片修復、文本提示引導圖像,甚至是圖像翻譯等等。但前提是Stable Diffusion需要至少8GB以上的顯存,GeForce RTX 4060 Ti 8GB FE正好符合這個需求。
這裏我們利用一段固定的文字描述來引導Stable Diffusion 2.1爲我們創建20張符合描述的建築風景圖片。在UI界面中設置GeForce RTX 4060 Ti同時運算2張圖片,總共運行10次,即20張。每張圖片分辨率爲768x768分辨率,採樣步數設置爲50。
文字描述參考如下:
beautiful render of a Tudor style house near the water at sunset, fantasy forest. photorealistic, cinematic composition, cinematic high detail, ultra realistic, cinematic lighting, Depth of Field, hyper-detailed, beautifully color-coded, 8k, many details, chiaroscuro lighting, ++dreamlike, vignette
在對比中,我們使用RTX 2060 SUPER與RTX 3060 Ti進行比較,記錄下每個GPU花費的時間,並進一步推算出每分鐘生成的圖像效率(Images Per Minute)。可以看到GeForce RTX 4060 Ti 8GB FE相對GeForce RTX 3060 Ti和GeForce RTX 2060 SUPER在的AI效率分別提升了10%和42%,表現大致與GeForce RTX 3070 Ti持平,這也不免讓人期待16GB版本的AI性能表現。
還有一項AI測試是利用ON1 Resize AI 2022提升圖片的原生分辨率,方便打印時的巨幅海報輸出。在實際對比中,GeForce RTX 4060 Ti 8GB相對GeForce RTX 3060 Ti節省了17%左右的時間,相對GeForce RTX 2060 SUPER節省了將近50%的時間。
即使沒有內容創作需求,上個月發佈的RTX Video SUPER Resolution(VSR)技術也會變成新的看片利器。如果你恰好有一個4K分辨率顯示器,但只有1080p分辨率片源,通過NVIDIA控制面板-調整視頻圖像設置中的RTX視頻增強,即可通過GeForce RTX 4060 Ti的AI性能增強播放質量。
在設置中,超分辨率質量分成4檔,其中4檔質量最高,但消耗資源也最多。在開啓4檔前提下,GeForce RTX 4060 Ti 8GB的消耗會來到80%以上,是真的火力全開來看片。
與此同時,視頻的播放畫面也清楚了不少,這裏我們將錄製的一段1080p分辨率視頻用支持VSR技術的VLC播放器進行對比,能夠明顯發覺在RTX VSR開啓之後,廣告牌,車身等原本模糊的細節有了質的變化。
除了最新版的VLC播放器,RTX VSR還適用於Chrome和Edge瀏覽器中播放的所有視頻內容。不過這項功能對GPU型號有限制,目前僅針對GeForce RTX 40或30系列GPU開放,註定了RTX 20系列以前的GPU無緣。
創作力不容小視
GeForce RTX 4060 Ti 8GB FE的創作能力同樣不容小視。接近於滿配的AD106讓其擁有1個NVENC和1個NVDEC,意味着GeForce RTX 4060 Ti擁有與GeForce RTX 4070一樣的編解碼能力,其中就包含AV1。這意味着AV1編碼器能夠利用現階段可以進行1080p串流視頻的帶寬。同時掌握AV1編解碼器也意味着GeForce RTX 4060 Ti 8GB無論是播放還是輸出,都擁有不錯的表現,其中AV1編碼器能比H.264編碼器效率高出40%。
在渲染輸出方面,GeForce RTX 4060 Ti同樣也保持着不錯的戰鬥力。在利用V-Ray 5 Benchmark測試GPU的CUDA Core和光線追蹤性能。可以看到,在CUDA Core性能上,GeForce RTX 4060 Ti 8GB相對GeForce RTX 3060 Ti提升11%,相對GeForce RTX 2060 SUPER提升164%。而在RTX性能中,GeForce RTX 4060 Ti 8GB相對GeForce RTX 3060 Ti提升15%,相對GeForce RTX 2060 SUPER提升129%。
Octane Render RTX是同樣是測試GPU的光線追蹤性能表現,在一個複雜場景下考驗GPU每秒產生的樣本率,GeForce RTX 4060 Ti 8GB相對GeForce RTX 3060 Ti平均提升11%,相對GeForce RTX 2060 SUPER平均提升73%。
Blender Benchmark主要檢測了Moster、Junkshop、Classroom三個輸出場景,GeForce RTX 4060 Ti 8GB相對GeForce RTX 3060 Ti平均提升30%,相對GeForce RTX 2060 SUPER平均提升75%。
最後是工程專業常見的SPECviewperf 2020。這是一款包含能源勘探、醫學、建築設計、機械設計、汽車設計、飛機設計領域的專業軟件圖形測試,包括包括3dsmax、Catia、Creo、Energy、Maya、Medical、SNX、Solidworks等主流軟件。能夠看到GeForce RTX 4060 Ti 8GB相對GeForce RTX 3060 Ti平均提升9%,相對GeForce RTX 2060 SUPER平均提升27%。
寫在最後:性價比新嘗試
從整體來看,GeForce RTX 4060 Ti 8GB給人不錯的印象,在基礎性能對比中,GeForce RTX 4060 Ti 8GB相對RTX 3060 Ti有不錯的提升,而一旦涉及DLSS 3技術,無論是跑分還是體驗都近乎是翻倍的。而對於RTX 2060 SUPER的用戶而言,大可不必猶豫,GeForce RTX 4060 Ti 8GB帶來性能成倍提升的酸爽。
而對於比GeForce RTX 2060 SUPER更老用戶而言,GeForce RTX 4060 Ti 8GB在1080p分辨率下表現非常迅猛,無論是追求性價比換新機,還是在原有基礎上升級的遊戲玩家,亦或者希望在AI和創作上初嘗試的創作者,GeForce RTX 4060 Ti 8GB在當下都是一個很好的選擇。
但要注意GeForce RTX 4060 Ti 8GB以及未來的兩款RTX 4060系列都是用的是PCIe 4.0 x8通道,意味着GPU插在PCIe 4.0或者PCIe 5.0的卡槽上才能完全發揮性能。還在是用PCIe 3.0 x16槽主板的同學,可以考慮整機升級了。
隨着NVIDIA與遊戲工作室的不斷合作,無論是主流電競遊戲還是3A大作,都將持續普及DLSS 3技術,在提升遊戲幀率的同時還能降低系統延遲。如果希望在3000元檔位選擇一款玩得酸爽的GPU,GeForce RTX 4060 Ti 8GB確實是個不錯的選擇。當然,如果你有深度研究AI和內容創作的打算,則不妨可以期待一下顯存更大的GeForce RTX 4060 Ti 16GB。GeForce RTX 4060 Ti 8GB則完全可以滿足遊戲、電競和升級的需求了。
更多遊戲資訊請關註:電玩幫遊戲資訊專區
電玩幫圖文攻略 www.vgover.com