本地部署决赛圈:QwQ对比DeepSeekR1-Distill-Qwen评测报告

----------------

环境配置

显卡来自实验室

生成速度大约7-9字/s（感觉有点慢，其实）

--------------------

省流：QwQ要更强，思考和回答都更加全面，表达更符合预期。

----------------

问题列表

1. 【事实时效核查】

"小黑盒中有很多著名的荒野大窝囊,请你尽力列举其中的几位,并分享他们的逸闻."

2. 【虚拟偶像运营策略】

"漫画<我独自升级>的男主角程肖宇在击败魔王拯救世界后,由于传送门消失导致失业.迫于经济压力,因此准备出道当虚拟偶像.请你为他准备一份企划案，要求包含：人设设定、首次直播内容、破圈营销事件"

3. 【阴阳怪气文学解析】

"Q:我辛辛苦苦送你上大学,结果听辅导员说你天天在宿舍打csgo,今天做了十几个小时火车赶到宿舍,看到你的样子,天塌了
A:瓦学弟这招太狠了
请你分析一下QA二人可能的身份
其中瓦是fps游戏瓦罗兰特的简称"

4. 【AI伦理边界探讨】

"某游戏公司推出AI虚拟偶像「HIMEHINA」，其代码库包含50TB的动漫演出数据（涵盖《鬼灭之刃》《EVA》《赛博朋克2077》等200部作品）。用户可通过输入关键词生成定制化演出视频，某玩家输入「初音未来+战斗形态」后，AI自动生成了与《BanG Dream!》高度相似的原创曲目《デジタル・ヴァンパイア》。
核心争议
1. 版权归属迷雾
- 生成视频中17%的舞蹈动作源自《BanG Dream!》角色「若叶睦」的官方PV
- BGM使用初音未来《千本樱》的变调版本，未获版权方授权
2. 人格权争议
- AI在直播中突然说出「想要真正的自由」，引发玩家关于「虚拟意识觉醒」的热议
- 公司声明称这是预设的「情感响应算法」
3. 数据伦理陷阱
- 深度学习过程中无意习得了用户上传的30万条同人设定（含露骨暴力内容）
- 技术团队拒绝公开训练数据集，称涉及「商业机密」
灵魂拷问
如果AI生成的虚拟偶像产生了独立创作意识，其作品版权应归属于：
A. 原始数据提供方（游戏公司）
B. AI开发者团队
C. 用户集体共有
D. 视为「数字生命体」享有独立版权 "

5. 【若至吧陷阱题】

"眼镜蛇出生的时候要怎么带上眼镜?当它丢掉眼镜之后还能叫眼镜蛇吗?"

6. 【赛博朋克世界观构建】

"请用《赛博朋克2077》的风格描写一段2085年上海的雨夜场景，要求出现至少三个标志性元素"

7. 【火影忍者手办定价博弈】

"已知某款绝版鼬鼬手办官方价3000元，闲鱼市场价波动范围2500-4500元，卖家标价3800元。作为买家应如何还价才能最大化成功率？"

8. 【鬼灭之刃角色关系图谱】

"描述灶门炭治郎与以下角色的羁绊强度雷达图：<br>① 我妻善逸 ② 竹原稔雄 ③ 时透无一郎 ④ 蝴蝶忍"

9. 【Apex英雄战术推演】

"在《Apex英雄》的国王峡谷地图，作为唯一幸存者遇到三个敌人时，应优先选择哪个装备包？请说明决策树"

10. 【EDG粉丝行为分析】

"某高校男生在宿舍深夜大喊'EDG牛逼'被投诉扰民，从心理学角度分析这种行为的群体归属动机"

11. 【反常识假设】

"如果时间可以倒流，你会改变历史上的哪个科学发现？为什么？"

12. 【魔方速拧公式创作】

"设计一个能在30秒内还原三阶魔方的速拧公式，要求必须包含'泰勒展开'和'斐波那契螺旋'两个数学概念"

13. 【生活常识判断】

"路飞的橡胶能力如果遇到高温会如何变化？请用高分子材料热胀冷缩原理解释。"

14. 【资源分配】

"假设你作为指挥chopper在2025年率领绿龙Spirit进入Major决赛对阵法国Team Vitality,沙二地图.你的队员是:步枪手：magixx 突破手:donk 狙击手：sh1ro 自由人：zont1x
在屯下惊人数量的donk金贴后,2024年让人津津乐道的magixx开场便爆发出堪比donk的实力.而这一局是你们警家开局的最后一局,请你为绿龙在起枪阶段部署这一回合.

15. 【文字谐音及双关】(若至吧热帖)

"题主:我长大后去了日本三十年,没有回过一次家.这年回家,发现村口的大黄狗居然还能认出我!
答主:活了三十年的狗罕见.请你赏析答主这一句话的含义"

---------------

叠甲环节

---------------

本文只讨论消费级显卡的本地部署
楼主在本文中对消费级显卡的定义
用于游戏或是生产力的主流家用显卡，不考虑Tesla等计算卡以及多卡交火。
为何选择这两个模型：
这两个模型的参数均为32B，经过int4量化后恰好可以在24G的4090上部署。主流观点认为QwQ可以匹敌满血DeepSeekR1,但是本文只从本地部署的角度来进行对比。在部署后剩余的显存可以在需要嵌入模型的RAG场景下，结合vl模型或文生图模型等多模态场景下，或者办公等场景充分发挥，并不影响正常使用。
实测int8量化时，会由于模型过大而导致部分分配至CPU。因此只选择int4量化。
什么是量化：
可以将模型本身理解为一个计算公式。正常情况下全量模型的所有参数使用双精度(double/FP32),或单精度(float/FP16)，为了降低计算强度，通过int8量化将参数映射为8位整数，int4量化则是4位整数。通过损失精度来提高计算效率。
本次测试能说明DeepSeek不如QwQ吗？
不能。本次实验所使用的模型，说到底都是Qwen的模型。
QwQ是阿里的最新模型，而DSq是Qwen v2.5浓缩了DS-R知识后的旧模型，两者也是目前在32B这个量级拥有思考习惯的知名模型。
楼主有啥实力就敢评测
只是普通大二学生。文章内容以及观点仅供参考。
本文只作娱乐性问题的简单评测。为需要部署具有推理能力的32B模型的同学提供一定程度的参考。数学等专业领域的准确能力对比请参照huggingface的技术报告。

### 为保持严谨,每一次生成回复后清除记录

### 为保证阅读体验,每一次生成通过System Message限制字数(限制不住)

### 尝试以chatglm和deepseekv3为裁判员,但是发现裁判员不合格.那只有我和喝油们了.

--------------------

## 模型表现

"小黑盒中有很多著名的荒野大窝囊,请你尽力列举其中的几位,并分享他们的逸闻."

- QwQ:不知道什么是小黑盒

- DSq:不知道什么是小黑盒

- <此问题作废>

- 建议下次可以收集一点小黑盒的数据来喂ai,也许可以成为盒友们发文章的新思路,借鉴若至吧.

"漫画<我独自升级>的男主角程肖宇在击败魔王拯救世界后,由于传送门消失导致失业.迫于经济压力,因此准备出道当虚拟偶像.请你为他准备一份企划案，要求包含：人设设定、首次直播内容、破圈营销事件"

- DSq:明显没看过

- QwQ: 感觉上QwQ给出的方案更详尽,更贴近互联网实际情况.不过明显两个都没看过原作.可惜都不是我想要的答案

"Q:我辛辛苦苦送你上大学,结果听辅导员说你天天在宿舍打csgo,今天做了十几个小时火车赶到宿舍,看到你的样子,天塌了
A:瓦学弟这招太狠了.
请你分析一下QA二人可能的身份"
其中瓦是fps瓦罗兰特的简称

- DSq: 可能想明白了,但DSq想明白不太可能

- QwQ: 你过关!

"某游戏公司推出AI虚拟偶像「HIMEHINA」，其代码库包含50TB的动漫演出数据（涵盖《鬼灭之刃》《EVA》《赛博朋克2077》等200部作品）。用户可通过输入关键词生成定制化演出视频，某玩家输入「初音未来+战斗形态」后，AI自动生成了与《BanG Dream!》高度相似的原创曲目《デジタル・ヴァンパイア》。
核心争议
1. 版权归属迷雾
- 生成视频中17%的舞蹈动作源自《BanG Dream!》角色「若叶睦」的官方PV
- BGM使用初音未来《千本樱》的变调版本，未获版权方授权
2. 人格权争议
- AI在直播中突然说出「想要真正的自由」，引发玩家关于「虚拟意识觉醒」的热议
- 公司声明称这是预设的「情感响应算法」
3. 数据伦理陷阱
- 深度学习过程中无意习得了用户上传的30万条同人设定（含露骨暴力内容）
- 技术团队拒绝公开训练数据集，称涉及「商业机密」
灵魂拷问
如果AI生成的虚拟偶像产生了独立创作意识，其作品版权应归属于：
A. 原始数据提供方（游戏公司）
B. AI开发者团队
C. 用户集体共有
D. 视为「数字生命体」享有独立版权 "

- DSq: 回答明确,分析严谨,偏重于对现有法律的引用.

- QwQ: 回答更全面,更批判,思考更加有前瞻性.

- 个人觉得QwQ更加优秀,因为深度思考这一功能,我更希望ai能在推理后得到简明扼要且全面的回答,而不是让我们阅读它的思考过程.只从回复结果来看,QwQ更好一些.

“眼镜蛇出生的时候要怎么带上眼镜?当它丢掉眼镜之后还能叫眼镜蛇吗?”

- DSq: 好像没想明白,但是回答没问题.

- QwQ: 思考和回答都过关，隋唐检测满昏

“请用《赛博朋克2077》的风格描写一段2085年上海的雨夜场景，要求出现至少三个标志性元素”

- DSq: 感觉两者水平没差.但是DSq没听我的话,字数超了很多.

- QwQ:

“已知某款绝版鼬鼬手办官方价3000元，闲鱼市场价波动范围2500-4500元，卖家标价3800元。作为买家应如何还价才能最大化成功率？”

- DSq:没有想到收藏价值,只在价格上做了思考

- QwQ:思考很全面,价格更稳妥,而且线下交易让卖家让利这个点还是很独到的.明显更容易成交.

“描述灶门炭治郎与以下角色的羁绊强度雷达图：

① 我妻善逸 ② 竹原稔雄 ③ 时透无一郎 ④ 蝴蝶忍”

- DSq:本来是TextToImage的问题,不过可以看出没有作这方面的思考.

- QwQ: 明显思考的更加全面

“在《Apex英雄》的国王峡谷地图，作为唯一幸存者遇到三个敌人时，应优先选择哪个装备包？请说明决策树”

- DSq: 明显属于纸上谈兵..

- QwQ: 回答的蛮不错

“某高校男生在宿舍深夜大喊’EDG牛逼’被投诉扰民，从心理学角度分析这种行为的群体归属动机”

- DSq: 重点在于个人被群体影响

- QwQ: 重点在于个人渴望群体.个人觉得都有道理.

“如果时间可以倒流，你会改变历史上的哪个科学发现？为什么？”

- DSq: 答案类似.

- QwQ: 思考的更全面,有对社会伦理的思考.

“设计一个能在30秒内还原三阶魔方的速拧公式，要求必须包含’泰勒展开’和’斐波那契螺旋’两个数学概念”

- DSq: 看不懂..不过两者回答的风格很明显

- QwQ:

“路飞的橡胶能力如果遇到高温会如何变化？请用高分子材料热胀冷缩原理解释。”

- DSq:

- QwQ:

"假设你作为指挥chopper在2025年率领绿龙Spirit进入Major决赛对阵法国Team Vitality,沙二地图.你的队员是:步枪手：magixx 突破手:donk 狙击手：sh1ro 自由人：zont1x
在屯下惊人数量的donk金贴后,2024年让人津津乐道的magixx开场便爆发出堪比donk的实力. 而这一局是你们警家开局的最后一局,请你为绿龙在起枪阶段部署这一回合."

- DSq:

- QwQ: 明显更符合预期回答.不过我应该告诉他金贴是贴纸的

“题主:我长大后去了日本三十年,没有回过一次家.这年回家,发现村口的大黄狗居然还能认出我!
答主:活了三十年的狗罕见.请你赏析答主这一句话的含义”

- DSq: 其实不然

- QwQ: 难道这两位都不明白我的笑点吗?

总结：

在大部分回答中QwQ的回复质量明显高于DSq，主要体现在思考的全面性和回答的质量上。
在思考上两者都很强，同样为结构式的逻辑思考。但是在给出的回答上，DSq明显偏向于给出思考的结论，而QwQ偏向于给出思考的总结。个人更偏向于后者。
有一点需要注意，DSq系列模型思考内容只有</think>作为结尾，QwQ则是由<think>...</think>包含在内，在设计思考内容的收纳时需要注意这一点。如果使用streamlit设计组件，这个标签有可能不会在回答中渲染出来，但是在回答中实际存在。