DLSS4技术解读:5070为何能打平4090,AI插帧的神!

1月7日,又到了一年一度的CES大会,今年英伟达按照惯例发布了最新的50系显卡,与50系同时公开的还有英伟达看家技术DLSS4,这次大力水手的更新依然相当给力,发布会PPT标注5070的性能能够打平上一代的旗舰卡4090,今天就和大家聊聊这次DLSS4的技术实现,以及这个技术有哪些优缺点。

英伟达DLSS英文全称Deep Learning Super Sampling,直译过来就是深度学习超采样技术,为RTX显卡的独家绝活,借助英伟达Tensor Core硬件单元,将低分辨率渲染的图形,生成高质量的高分辨率图形,目前以及迭代经历了图灵Turing、安培Ampere、Ada Lovelace和这一次的Blackwell架构。

每一代RTX显卡,英伟达在发布会都会重点强调 CUDA 核心,以及我们也是根据 CUDA 核心数量来评估老黄的刀法;区别于传统的 CUDA 核心,Tensor Core的矩阵计算速度提升更加显著,所以在处理图像识别、自然语言处理这些领域时的表现极好,那么Tensor Core又是如何在游戏中实现DLSS的呢?

DLSS技术实现

首先游戏会以较低的分辨率渲染场景,降低显卡的工作负载,因为显卡本身可能无法流畅运行4K的高分辨率的画面,这时就需要借助Tensor Core,游戏引擎此时会提供一系列的辅助数据,比如深度缓冲区和运动矢量,深度缓冲区是每个像素与摄像机之间的距离信息,运动矢量是每个像素在当前帧与前一帧之间的运动轨迹——

Tensor Core接收到引擎传过来的深度缓冲区和运动矢量,利用深度学习模型,来将低分辨率的初始帧提升至高分辨率(如果你对深度学习有了解或者看过我之前一系列的机器学习深度学习文章,再看本文可能会更加顺畅),这时Tensor Core会加载一个预训练的DLSS模型,这个模型一般是经过英伟达自己的超算进行训练,对专门的游戏场景进行优化,这也是为何你经常可以在英伟达GeForce APP看到更新的原因。

DLSS模型本身就是一个预训练的深度学习模型,输入数据为游戏场景的几何信息和动态变化数据,所谓的输出其实就是利用当前的输入数据对未来进行预测,这时就需要RTX显卡的Tensor Core。来对大量的场景执行深度学习模型的底层核心操作——矩阵乘法和加法运算,比如最基础的卷积神经网络CNN的反向传播过程。

以上就是极简版DLSS原理,接下来聊聊DLSS4,上一代DLSS3我就在小黑盒给大家讲过技术原理,当时40系最重要的是 Optical Flow 帧生成技术,通过分析相邻两帧之间的运动矢量和光流数据,生成一个额外的中间帧,DLSS3完全不需要依赖传统的渲染管线,而是通过 AI 预测中间帧,从而提升帧率,用人话说就是你看到的画面很多都不是游戏原生画面,而是英伟达显卡用深度学习预测的画面,但深度学习也会带来一个问题——

帧数上升确实能够弥补画质,但是插入的帧是额外帧,在玩游戏时候会导致输入指令有滞后感,用户输入与画面更新之间的反馈时间明显有延迟,所以英伟达专门又推出了Reflex技术,传统的管线渲染过程,CPU会提前准备多帧渲染数据,导致GPU有等待任务的瓶颈增加延迟,Reflex可以从中协调CPU和GPU的工作,比如限制GPU渲染任务的排队数量,尽可能减少动态场景不一致的因素。

DLSS4的进化

去年9月份其实还有一个DLSS3.5,这里不做过多介绍,接下来看DLSS4(声明一下,DLSS4的分析主要来自英伟达发布会和官网,实际表现还需要等到上手测试)。区别于上一代的DLSS3,这一代的大力水手可以为每一个渲染帧生成最多三个额外帧,打个比方,例如原始帧率为60FPS,DLSS 3可提升到120FPS,而DLSS4在120FPS的基础上,再多生成三倍的帧数,加起来就是240FPS。

作为英伟达御用测试游戏《赛博朋克2077》,对比没有DLSS的传统渲染,DLSS4技术可以提升8倍,直接实现4K 240Hz的全光追游戏,既然能力提升如此之大,那么古尔丹代价为什么?

DLSS3只是一比一生成一个额外帧,而DLSS4多生成3帧,也就是说你在玩游戏时候超过一半画面都是AI深度学习模型预测出来的,多出的额外帧会导致更恐怖的延迟,所以英伟达推出了新一代的Reflex技术,Reflex2.0其实值得单独一篇文章详细聊聊,英伟达官网放出了Reflex2的核心技术Frame Warp,也是专门为需要竞技高刷的FPS游戏玩家设计,如果是DLSS4+无Reflex情况=56毫秒延迟,Reflex 低延迟模式可以降低一半到27毫秒,但是仍然无法抵消DLSS4增加的额外帧——

Frame Warp可以在帧发送到显示器之前,提前根据玩家的最新输入对渲染帧进行动态扭曲或调整,也就是说原来DLSS是预测画面,如今Frame Warp可以把玩家的输入指令也预测一下,这样可以在27毫秒的基础上,再降低50%到14毫秒,总延迟减少75%,从而弥补DLSS4插帧带来的滞后感。目前瓦洛兰特是英伟达的御用测试游戏,将在50系显卡上市后首发支持Reflex2.0。

Transformer

最后一点篇幅聊聊这几年最受关注的Transformer。这次DLSS4用的就用Transformer取代了传统的卷积神经网络,原来的CNN主要是用来分析局部上下文,放在DLSS3预测中间帧很好用,但是如果是处理大规模帧间信息效率会下降,目前CNN的性能也被英伟达压榨干净了,于是索性涌上来语言处理NLP的Transformer架构,优势自然是Self-Attention自注意力机制,能够更好地评估帧内和帧间每个像素的全局关系。

比如较复杂的快速移动场景,或者光照剧烈变换场景,原来的DLSS3还不够好,无法把握整体环境的变化;在游戏的材质细节场景上,DLSS4可以提升边缘平滑生成更自然的画面,运动细节也更加清晰。之前CNN用了差不多6年,这次Transformer估计也可以一直用到60系、70系显卡。

英伟达官网给出的是RTX 5090能够4K 240帧游戏,如果上述理论技术都能实现,或者效果有个八成左右,50系显卡对比40系都是很大的提升,老黄发布会上说5070能达到4090其实就是夸DLSS4+Reflex2的AI插帧效果好,真实的CUDA核心数量和AI算力还是有一定的差距,如果只是打游戏的话,50系确实值得入手。

英伟达:再放超级大招,史上最强AI芯片!

黄仁勋:给AI圈一点小小的英伟达震撼,11分钟训练ChatGPT!

英伟达重磅:史上最强AI算力芯片,发布会终极大招!

英伟达重磅:AI读取视频,可直出3D游戏模型!

英伟达:单日疯涨2000亿美元,狂赚一个AMD市值!

CES科技春晚:英伟达、AMD、英特尔三大厂商汇总!

CES科技春晚:索尼、三星等十大黑科技亮相!

CES 2023:英伟达发布4070Ti,ROG全系40系笔记本配置!

CES 2023:索尼汽车官宣亮相,打造元宇宙进军太空!

CES 2024:英伟达发布50系显卡,DLSS4提升巨大!

英伟达GTC24:发布全球最强AI芯片,性能逆天!

英伟达GTC23:核弹级AI芯片,专供ChatGPT速度提升30倍!

英伟达GTC22:40系显卡参数解读,你打算购买哪一款?

英伟达GTC22:40系显卡价格过高,剑指元宇宙AI!

CES 2021:AMD6000系处理器发布,轻薄本畅玩3A!

CES 2021:英特尔12代处理器发布,最快的游戏CPU!

CES 2021:英特尔游戏性能怪兽,RTX 3090Ti发布!

CES 2021:英特尔首款ARM架构CPU,超x86架构十倍性能

英伟达:预计显卡短缺的情况会持续到2021年底

英伟达:3080Ti价格跳水,以太坊2.0升级与显卡矿难

#gd硬件杂谈# #gd的ai&游戏杂谈#

更多游戏资讯请关注:电玩帮游戏资讯专区

电玩帮图文攻略 www.vgover.com