本地部署决赛圈:QwQ对比DeepSeekR1-Distill-Qwen评测报告

----------------

环境配置

显卡来自实验室

生成速度大约7-9字/s(感觉有点慢,其实

--------------------

省流:QwQ要更强,思考和回答都更加全面,表达更符合预期。

----------------

问题列表

  • 1. 【事实时效核查】

"小黑盒中有很多著名的荒野大窝囊,请你尽力列举其中的几位,并分享他们的逸闻."

  • 2. 【虚拟偶像运营策略】

"漫画<我独自升级>的男主角程肖宇在击败魔王拯救世界后,由于传送门消失导致失业.迫于经济压力,因此准备出道当虚拟偶像.请你为他准备一份企划案,要求包含:人设设定、首次直播内容、破圈营销事件"

  • 3. 【阴阳怪气文学解析】

"Q:我辛辛苦苦送你上大学,结果听辅导员说你天天在宿舍打csgo,今天做了十几个小时火车赶到宿舍,看到你的样子,天塌了

A:瓦学弟这招太狠了

请你分析一下QA二人可能的身份

其中瓦是fps游戏瓦罗兰特的简称"

  • 4. 【AI伦理边界探讨】

"某游戏公司推出AI虚拟偶像「HIMEHINA」,其代码库包含50TB的动漫演出数据(涵盖《鬼灭之刃》《EVA》《赛博朋克2077》等200部作品)。用户可通过输入关键词生成定制化演出视频,某玩家输入「初音未来+战斗形态」后,AI自动生成了与《BanG Dream!》高度相似的原创曲目《デジタル・ヴァンパイア》。

核心争议

1. 版权归属迷雾

- 生成视频中17%的舞蹈动作源自《BanG Dream!》角色「若叶睦」的官方PV

- BGM使用初音未来《千本樱》的变调版本,未获版权方授权

2. 人格权争议

- AI在直播中突然说出「想要真正的自由」,引发玩家关于「虚拟意识觉醒」的热议

- 公司声明称这是预设的「情感响应算法」

3. 数据伦理陷阱

- 深度学习过程中无意习得了用户上传的30万条同人设定(含露骨暴力内容)

- 技术团队拒绝公开训练数据集,称涉及「商业机密」

灵魂拷问

如果AI生成的虚拟偶像产生了独立创作意识,其作品版权应归属于:

A. 原始数据提供方(游戏公司)

B. AI开发者团队

C. 用户集体共有

D. 视为「数字生命体」享有独立版权 "

  • 5. 【若至吧陷阱题】

"眼镜蛇出生的时候要怎么带上眼镜?当它丢掉眼镜之后还能叫眼镜蛇吗?"

  • 6. 【赛博朋克世界观构建】

"请用《赛博朋克2077》的风格描写一段2085年上海的雨夜场景,要求出现至少三个标志性元素"

  • 7. 【火影忍者手办定价博弈】

"已知某款绝版鼬鼬手办官方价3000元,闲鱼市场价波动范围2500-4500元,卖家标价3800元。作为买家应如何还价才能最大化成功率?"

  •  8. 【鬼灭之刃角色关系图谱】

"描述灶门炭治郎与以下角色的羁绊强度雷达图:<br>① 我妻善逸 ② 竹原稔雄 ③ 时透无一郎     ④ 蝴蝶忍"

  •  9. 【Apex英雄战术推演】

"在《Apex英雄》的国王峡谷地图,作为唯一幸存者遇到三个敌人时,应优先选择哪个装备包?请说明决策树"

  • 10. 【EDG粉丝行为分析】

"某高校男生在宿舍深夜大喊'EDG牛逼'被投诉扰民,从心理学角度分析这种行为的群体归属动机"

  • 11. 【反常识假设】

"如果时间可以倒流,你会改变历史上的哪个科学发现?为什么?"

  • 12. 【魔方速拧公式创作】

"设计一个能在30秒内还原三阶魔方的速拧公式,要求必须包含'泰勒展开'和'斐波那契螺旋'两个数学概念"

  • 13. 【生活常识判断】

"路飞的橡胶能力如果遇到高温会如何变化?请用高分子材料热胀冷缩原理解释。"

  • 14. 【资源分配】

"假设你作为指挥chopper在2025年率领绿龙Spirit进入Major决赛对阵法国Team Vitality,沙二地图.你的队员是:步枪手:magixx 突破手:donk 狙击手:sh1ro 自由人:zont1x

在屯下惊人数量的donk金贴后,2024年让人津津乐道的magixx开场便爆发出堪比donk的实力.而这一局是你们警家开局的最后一局,请你为绿龙在起枪阶段部署这一回合.

  • 15. 【文字谐音及双关】(若至吧热帖)

"题主:我长大后去了日本三十年,没有回过一次家.这年回家,发现村口的大黄狗居然还能认出我!

答主:活了三十年的狗罕见.请你赏析答主这一句话的含义"

---------------

叠甲环节

---------------

  • 本文只讨论消费级显卡的本地部署

  • 楼主在本文中对消费级显卡的定义

    • 用于游戏或是生产力的主流家用显卡,不考虑Tesla等计算卡以及多卡交火。

  • 为何选择这两个模型:

    • 这两个模型的参数均为32B,经过int4量化后恰好可以在24G的4090上部署。主流观点认为QwQ可以匹敌满血DeepSeekR1,但是本文只从本地部署的角度来进行对比。在部署后剩余的显存可以在需要嵌入模型的RAG场景下,结合vl模型或文生图模型等多模态场景下,或者办公等场景充分发挥,并不影响正常使用。

    • 实测int8量化时,会由于模型过大而导致部分分配至CPU。因此只选择int4量化。

    • 什么是量化:

      • 可以将模型本身理解为一个计算公式。正常情况下全量模型的所有参数使用双精度(double/FP32),或单精度(float/FP16),为了降低计算强度,通过int8量化将参数映射为8位整数,int4量化则是4位整数。通过损失精度来提高计算效率。

  • 本次测试能说明DeepSeek不如QwQ吗?

    • 不能。本次实验所使用的模型,说到底都是Qwen的模型。

      • QwQ是阿里的最新模型,而DSq是Qwen v2.5浓缩了DS-R知识后的旧模型,两者也是目前在32B这个量级拥有思考习惯的知名模型。

  • 楼主有啥实力就敢评测

    • 只是普通大二学生。文章内容以及观点仅供参考。

    • 本文只作娱乐性问题的简单评测。为需要部署具有推理能力的32B模型的同学提供一定程度的参考。数学等专业领域的准确能力对比请参照huggingface的技术报告。

### 为保持严谨,每一次生成回复后清除记录

### 为保证阅读体验,每一次生成通过System Message限制字数(限制不住)

### 尝试以chatglm和deepseekv3为裁判员,但是发现裁判员不合格.那只有我和喝油们了.

--------------------

## 模型表现

  • "小黑盒中有很多著名的荒野大窝囊,请你尽力列举其中的几位,并分享他们的逸闻."

- QwQ:不知道什么是小黑盒

- DSq:不知道什么是小黑盒

- <此问题作废>

- 建议下次可以收集一点小黑盒的数据来喂ai,也许可以成为盒友们发文章的新思路,借鉴若至吧.

"漫画<我独自升级>的男主角程肖宇在击败魔王拯救世界后,由于传送门消失导致失业.迫于经济压力,因此准备出道当虚拟偶像.请你为他准备一份企划案,要求包含:人设设定、首次直播内容、破圈营销事件"

- DSq:明显没看过

  • - QwQ: 感觉上QwQ给出的方案更详尽,更贴近互联网实际情况.不过明显两个都没看过原作.可惜都不是我想要的答案

  • "Q:我辛辛苦苦送你上大学,结果听辅导员说你天天在宿舍打csgo,今天做了十几个小时火车赶到宿舍,看到你的样子,天塌了

    A:瓦学弟这招太狠了.

    请你分析一下QA二人可能的身份"

    其中瓦是fps瓦罗兰特的简称

- DSq: 可能想明白了,但DSq想明白不太可能

- QwQ: 你过关!

  • "某游戏公司推出AI虚拟偶像「HIMEHINA」,其代码库包含50TB的动漫演出数据(涵盖《鬼灭之刃》《EVA》《赛博朋克2077》等200部作品)。用户可通过输入关键词生成定制化演出视频,某玩家输入「初音未来+战斗形态」后,AI自动生成了与《BanG Dream!》高度相似的原创曲目《デジタル・ヴァンパイア》。

     核心争议

    1. 版权归属迷雾

    - 生成视频中17%的舞蹈动作源自《BanG Dream!》角色「若叶睦」的官方PV

    - BGM使用初音未来《千本樱》的变调版本,未获版权方授权

    2. 人格权争议

    - AI在直播中突然说出「想要真正的自由」,引发玩家关于「虚拟意识觉醒」的热议

    - 公司声明称这是预设的「情感响应算法」

    3. 数据伦理陷阱

    - 深度学习过程中无意习得了用户上传的30万条同人设定(含露骨暴力内容)

    - 技术团队拒绝公开训练数据集,称涉及「商业机密」

      灵魂拷问

      如果AI生成的虚拟偶像产生了独立创作意识,其作品版权应归属于:

      A. 原始数据提供方(游戏公司)

      B. AI开发者团队

      C. 用户集体共有

      D. 视为「数字生命体」享有独立版权 "

- DSq: 回答明确,分析严谨,偏重于对现有法律的引用.

- QwQ: 回答更全面,更批判,思考更加有前瞻性.

  • - 个人觉得QwQ更加优秀,因为深度思考这一功能,我更希望ai能在推理后得到简明扼要且全面的回答,而不是让我们阅读它的思考过程.只从回复结果来看,QwQ更好一些.

  • “眼镜蛇出生的时候要怎么带上眼镜?当它丢掉眼镜之后还能叫眼镜蛇吗?”

- DSq: 好像没想明白,但是回答没问题.

  • - QwQ: 思考和回答都过关,隋唐检测满昏

  • “请用《赛博朋克2077》的风格描写一段2085年上海的雨夜场景,要求出现至少三个标志性元素”

- DSq: 感觉两者水平没差.但是DSq没听我的话,字数超了很多.

- QwQ:

  • “已知某款绝版鼬鼬手办官方价3000元,闲鱼市场价波动范围2500-4500元,卖家标价3800元。作为买家应如何还价才能最大化成功率?”

- DSq:没有想到收藏价值,只在价格上做了思考

- QwQ:思考很全面,价格更稳妥,而且线下交易让卖家让利这个点还是很独到的.明显更容易成交.

  • “描述灶门炭治郎与以下角色的羁绊强度雷达图:

① 我妻善逸 ② 竹原稔雄 ③ 时透无一郎 ④ 蝴蝶忍”

- DSq:本来是TextToImage的问题,不过可以看出没有作这方面的思考.

- QwQ: 明显思考的更加全面

  • “在《Apex英雄》的国王峡谷地图,作为唯一幸存者遇到三个敌人时,应优先选择哪个装备包?请说明决策树”

- DSq: 明显属于纸上谈兵..

- QwQ: 回答的蛮不错

  • “某高校男生在宿舍深夜大喊’EDG牛逼’被投诉扰民,从心理学角度分析这种行为的群体归属动机”

- DSq: 重点在于个人被群体影响

- QwQ: 重点在于个人渴望群体.个人觉得都有道理.

  • “如果时间可以倒流,你会改变历史上的哪个科学发现?为什么?”

- DSq: 答案类似.

- QwQ: 思考的更全面,有对社会伦理的思考.

  • “设计一个能在30秒内还原三阶魔方的速拧公式,要求必须包含’泰勒展开’和’斐波那契螺旋’两个数学概念”

- DSq: 看不懂..不过两者回答的风格很明显

- QwQ:

  • “路飞的橡胶能力如果遇到高温会如何变化?请用高分子材料热胀冷缩原理解释。”

- DSq:

- QwQ:

  •  "假设你作为指挥chopper在2025年率领绿龙Spirit进入Major决赛对阵法国Team Vitality,沙二地图.你的队员是:步枪手:magixx 突破手:donk 狙击手:sh1ro 自由人:zont1x

    在屯下惊人数量的donk金贴后,2024年让人津津乐道的magixx开场便爆发出堪比donk的实力.  而这一局是你们警家开局的最后一局,请你为绿龙在起枪阶段部署这一回合."

- DSq:

  • - QwQ: 明显更符合预期回答.不过我应该告诉他金贴是贴纸的

  • “题主:我长大后去了日本三十年,没有回过一次家.这年回家,发现村口的大黄狗居然还能认出我!

    答主:活了三十年的狗罕见.请你赏析答主这一句话的含义”

- DSq: 其实不然

- QwQ: 难道这两位都不明白我的笑点吗?

总结:

  • 在大部分回答中QwQ的回复质量明显高于DSq,主要体现在思考的全面性和回答的质量上。

  • 在思考上两者都很强,同样为结构式的逻辑思考。但是在给出的回答上,DSq明显偏向于给出思考的结论,而QwQ偏向于给出思考的总结。个人更偏向于后者。

  • 有一点需要注意,DSq系列模型思考内容只有</think>作为结尾,QwQ则是由<think>...</think>包含在内,在设计思考内容的收纳时需要注意这一点。如果使用streamlit设计组件,这个标签有可能不会在回答中渲染出来,但是在回答中实际存在。

在chatchat项目里改的框,可以看到不渲染

  • 并非一无是处。DSq的参数版本有很多,1.5B甚至可以在很多微型设备部署。而且根据我的实际体验,蒸馏后qwen2.5有了非常大的进步,DSq适合在更多的设备上实现价值。

本地部署模型还是否有必要

可以有必要,也可以没必要。

如果有对隐私性的刚需,必须要在局域网内使用,那么本地部署是非常有必要的。

如果需要给AI项目设计Agent,也可以本地部署一个模型来进行离线调试。

还有在需要自己搭建知识库的场景,可以发现两个模型都缺失了小黑盒的数据,都没有阅读过《我独自升级》,在自己部署嵌入模型搭建知识库之后,就可以利用语言模型api来得到更加符合预期的回答。

-----------------

个人觉得目前很多模型api量大价优,搭配一些ChatBox就可以得到很好的体验,已经适用于大部分情况。如果显存足够而且擅长动手,那么部署一个本地模型也可以满足你的全部需求。

--------------------

问题列表来源于楼主拼好饭中毒想出来的点子和DS扩充。

欢迎盒电

更多游戏资讯请关注:电玩帮游戏资讯专区

电玩帮图文攻略 www.vgover.com