DLSS4技術解讀:5070爲何能打平4090,AI插幀的神!

1月7日,又到了一年一度的CES大會,今年英偉達按照慣例發佈了最新的50系顯卡,與50系同時公開的還有英偉達看家技術DLSS4,這次大力水手的更新依然相當給力,發佈會PPT標註5070的性能能夠打平上一代的旗艦卡4090,今天就和大家聊聊這次DLSS4的技術實現,以及這個技術有哪些優缺點。

英偉達DLSS英文全稱Deep Learning Super Sampling,直譯過來就是深度學習超採樣技術,爲RTX顯卡的獨家絕活,藉助英偉達Tensor Core硬件單元,將低分辨率渲染的圖形,生成高質量的高分辨率圖形,目前以及迭代經歷了圖靈Turing、安培Ampere、Ada Lovelace和這一次的Blackwell架構。

每一代RTX顯卡,英偉達在發佈會都會重點強調 CUDA 核心,以及我們也是根據 CUDA 核心數量來評估老黃的刀法;區別於傳統的 CUDA 核心,Tensor Core的矩陣計算速度提升更加顯著,所以在處理圖像識別、自然語言處理這些領域時的表現極好,那麼Tensor Core又是如何在遊戲中實現DLSS的呢?

DLSS技術實現

首先遊戲會以較低的分辨率渲染場景,降低顯卡的工作負載,因爲顯卡本身可能無法流暢運行4K的高分辨率的畫面,這時就需要藉助Tensor Core,遊戲引擎此時會提供一系列的輔助數據,比如深度緩衝區和運動矢量,深度緩衝區是每個像素與攝像機之間的距離信息,運動矢量是每個像素在當前幀與前一幀之間的運動軌跡——

Tensor Core接收到引擎傳過來的深度緩衝區和運動矢量,利用深度學習模型,來將低分辨率的初始幀提升至高分辨率(如果你對深度學習有了解或者看過我之前一系列的機器學習深度學習文章,再看本文可能會更加順暢),這時Tensor Core會加載一個預訓練的DLSS模型,這個模型一般是經過英偉達自己的超算進行訓練,對專門的遊戲場景進行優化,這也是爲何你經常可以在英偉達GeForce APP看到更新的原因。

DLSS模型本身就是一個預訓練的深度學習模型,輸入數據爲遊戲場景的幾何信息和動態變化數據,所謂的輸出其實就是利用當前的輸入數據對未來進行預測,這時就需要RTX顯卡的Tensor Core。來對大量的場景執行深度學習模型的底層核心操作——矩陣乘法和加法運算,比如最基礎的卷積神經網絡CNN的反向傳播過程。

以上就是極簡版DLSS原理,接下來聊聊DLSS4,上一代DLSS3我就在小黑盒給大家講過技術原理,當時40系最重要的是 Optical Flow 幀生成技術,通過分析相鄰兩幀之間的運動矢量和光流數據,生成一個額外的中間幀,DLSS3完全不需要依賴傳統的渲染管線,而是通過 AI 預測中間幀,從而提升幀率,用人話說就是你看到的畫面很多都不是遊戲原生畫面,而是英偉達顯卡用深度學習預測的畫面,但深度學習也會帶來一個問題——

幀數上升確實能夠彌補畫質,但是插入的幀是額外幀,在玩遊戲時候會導致輸入指令有滯後感,用戶輸入與畫面更新之間的反饋時間明顯有延遲,所以英偉達專門又推出了Reflex技術,傳統的管線渲染過程,CPU會提前準備多幀渲染數據,導致GPU有等待任務的瓶頸增加延遲,Reflex可以從中協調CPU和GPU的工作,比如限制GPU渲染任務的排隊數量,儘可能減少動態場景不一致的因素。

DLSS4的進化

去年9月份其實還有一個DLSS3.5,這裏不做過多介紹,接下來看DLSS4(聲明一下,DLSS4的分析主要來自英偉達發佈會和官網,實際表現還需要等到上手測試)。區別於上一代的DLSS3,這一代的大力水手可以爲每一個渲染幀生成最多三個額外幀,打個比方,例如原始幀率爲60FPS,DLSS 3可提升到120FPS,而DLSS4在120FPS的基礎上,再多生成三倍的幀數,加起來就是240FPS。

作爲英偉達御用測試遊戲《賽博朋克2077》,對比沒有DLSS的傳統渲染,DLSS4技術可以提升8倍,直接實現4K 240Hz的全光追遊戲,既然能力提升如此之大,那麼古爾丹代價爲什麼?

DLSS3只是一比一生成一個額外幀,而DLSS4多生成3幀,也就是說你在玩遊戲時候超過一半畫面都是AI深度學習模型預測出來的,多出的額外幀會導致更恐怖的延遲,所以英偉達推出了新一代的Reflex技術,Reflex2.0其實值得單獨一篇文章詳細聊聊,英偉達官網放出了Reflex2的核心技術Frame Warp,也是專門爲需要競技高刷的FPS遊戲玩家設計,如果是DLSS4+無Reflex情況=56毫秒延遲,Reflex 低延遲模式可以降低一半到27毫秒,但是仍然無法抵消DLSS4增加的額外幀——

Frame Warp可以在幀發送到顯示器之前,提前根據玩家的最新輸入對渲染幀進行動態扭曲或調整,也就是說原來DLSS是預測畫面,如今Frame Warp可以把玩家的輸入指令也預測一下,這樣可以在27毫秒的基礎上,再降低50%到14毫秒,總延遲減少75%,從而彌補DLSS4插幀帶來的滯後感。目前瓦洛蘭特是英偉達的御用測試遊戲,將在50系顯卡上市後首發支持Reflex2.0。

Transformer

最後一點篇幅聊聊這幾年最受關注的Transformer。這次DLSS4用的就用Transformer取代了傳統的卷積神經網絡,原來的CNN主要是用來分析局部上下文,放在DLSS3預測中間幀很好用,但是如果是處理大規模幀間信息效率會下降,目前CNN的性能也被英偉達壓榨乾淨了,於是索性湧上來語言處理NLP的Transformer架構,優勢自然是Self-Attention自注意力機制,能夠更好地評估幀內和幀間每個像素的全局關係。

比如較複雜的快速移動場景,或者光照劇烈變換場景,原來的DLSS3還不夠好,無法把握整體環境的變化;在遊戲的材質細節場景上,DLSS4可以提升邊緣平滑生成更自然的畫面,運動細節也更加清晰。之前CNN用了差不多6年,這次Transformer估計也可以一直用到60系、70系顯卡。

英偉達官網給出的是RTX 5090能夠4K 240幀遊戲,如果上述理論技術都能實現,或者效果有個八成左右,50系顯卡對比40系都是很大的提升,老黃髮佈會上說5070能達到4090其實就是誇DLSS4+Reflex2的AI插幀效果好,真實的CUDA核心數量和AI算力還是有一定的差距,如果只是打遊戲的話,50系確實值得入手。

英偉達:再放超級大招,史上最強AI芯片!

黃仁勳:給AI圈一點小小的英偉達震撼,11分鐘訓練ChatGPT!

英偉達重磅:史上最強AI算力芯片,發佈會終極大招!

英偉達重磅:AI讀取視頻,可直出3D遊戲模型!

英偉達:單日瘋漲2000億美元,狂賺一個AMD市值!

CES科技春晚:英偉達、AMD、英特爾三大廠商彙總!

CES科技春晚:索尼、三星等十大黑科技亮相!

CES 2023:英偉達發佈4070Ti,ROG全系40系筆記本配置!

CES 2023:索尼汽車官宣亮相,打造元宇宙進軍太空!

CES 2024:英偉達發佈50系顯卡,DLSS4提升巨大!

英偉達GTC24:發佈全球最強AI芯片,性能逆天!

英偉達GTC23:核彈級AI芯片,專供ChatGPT速度提升30倍!

英偉達GTC22:40系顯卡參數解讀,你打算購買哪一款?

英偉達GTC22:40系顯卡價格過高,劍指元宇宙AI!

CES 2021:AMD6000系處理器發佈,輕薄本暢玩3A!

CES 2021:英特爾12代處理器發佈,最快的遊戲CPU!

CES 2021:英特爾遊戲性能怪獸,RTX 3090Ti發佈!

CES 2021:英特爾首款ARM架構CPU,超x86架構十倍性能

英偉達:預計顯卡短缺的情況會持續到2021年底

英偉達:3080Ti價格跳水,以太坊2.0升級與顯卡礦難

#gd硬件雜談# #gd的ai&遊戲雜談#

更多遊戲資訊請關註:電玩幫遊戲資訊專區

電玩幫圖文攻略 www.vgover.com