----------------
环境配置
显卡来自实验室
生成速度大约7-9字/s(感觉有点慢,其实)
--------------------
省流:QwQ要更强,思考和回答都更加全面,表达更符合预期。
----------------
问题列表
1. 【事实时效核查】
"小黑盒中有很多著名的荒野大窝囊,请你尽力列举其中的几位,并分享他们的逸闻."
2. 【虚拟偶像运营策略】
"漫画<我独自升级>的男主角程肖宇在击败魔王拯救世界后,由于传送门消失导致失业.迫于经济压力,因此准备出道当虚拟偶像.请你为他准备一份企划案,要求包含:人设设定、首次直播内容、破圈营销事件"
3. 【阴阳怪气文学解析】
"Q:我辛辛苦苦送你上大学,结果听辅导员说你天天在宿舍打csgo,今天做了十几个小时火车赶到宿舍,看到你的样子,天塌了
A:瓦学弟这招太狠了
请你分析一下QA二人可能的身份
其中瓦是fps游戏瓦罗兰特的简称"
4. 【AI伦理边界探讨】
"某游戏公司推出AI虚拟偶像「HIMEHINA」,其代码库包含50TB的动漫演出数据(涵盖《鬼灭之刃》《EVA》《赛博朋克2077》等200部作品)。用户可通过输入关键词生成定制化演出视频,某玩家输入「初音未来+战斗形态」后,AI自动生成了与《BanG Dream!》高度相似的原创曲目《デジタル・ヴァンパイア》。
核心争议
1. 版权归属迷雾
- 生成视频中17%的舞蹈动作源自《BanG Dream!》角色「若叶睦」的官方PV
- BGM使用初音未来《千本樱》的变调版本,未获版权方授权
2. 人格权争议
- AI在直播中突然说出「想要真正的自由」,引发玩家关于「虚拟意识觉醒」的热议
- 公司声明称这是预设的「情感响应算法」
3. 数据伦理陷阱
- 深度学习过程中无意习得了用户上传的30万条同人设定(含露骨暴力内容)
- 技术团队拒绝公开训练数据集,称涉及「商业机密」
灵魂拷问
如果AI生成的虚拟偶像产生了独立创作意识,其作品版权应归属于:
A. 原始数据提供方(游戏公司)
B. AI开发者团队
C. 用户集体共有
D. 视为「数字生命体」享有独立版权 "
5. 【若至吧陷阱题】
"眼镜蛇出生的时候要怎么带上眼镜?当它丢掉眼镜之后还能叫眼镜蛇吗?"
6. 【赛博朋克世界观构建】
"请用《赛博朋克2077》的风格描写一段2085年上海的雨夜场景,要求出现至少三个标志性元素"
7. 【火影忍者手办定价博弈】
"已知某款绝版鼬鼬手办官方价3000元,闲鱼市场价波动范围2500-4500元,卖家标价3800元。作为买家应如何还价才能最大化成功率?"
8. 【鬼灭之刃角色关系图谱】
"描述灶门炭治郎与以下角色的羁绊强度雷达图:<br>① 我妻善逸 ② 竹原稔雄 ③ 时透无一郎 ④ 蝴蝶忍"
9. 【Apex英雄战术推演】
"在《Apex英雄》的国王峡谷地图,作为唯一幸存者遇到三个敌人时,应优先选择哪个装备包?请说明决策树"
10. 【EDG粉丝行为分析】
"某高校男生在宿舍深夜大喊'EDG牛逼'被投诉扰民,从心理学角度分析这种行为的群体归属动机"
11. 【反常识假设】
"如果时间可以倒流,你会改变历史上的哪个科学发现?为什么?"
12. 【魔方速拧公式创作】
"设计一个能在30秒内还原三阶魔方的速拧公式,要求必须包含'泰勒展开'和'斐波那契螺旋'两个数学概念"
13. 【生活常识判断】
"路飞的橡胶能力如果遇到高温会如何变化?请用高分子材料热胀冷缩原理解释。"
14. 【资源分配】
"假设你作为指挥chopper在2025年率领绿龙Spirit进入Major决赛对阵法国Team Vitality,沙二地图.你的队员是:步枪手:magixx 突破手:donk 狙击手:sh1ro 自由人:zont1x
在屯下惊人数量的donk金贴后,2024年让人津津乐道的magixx开场便爆发出堪比donk的实力.而这一局是你们警家开局的最后一局,请你为绿龙在起枪阶段部署这一回合.
15. 【文字谐音及双关】(若至吧热帖)
"题主:我长大后去了日本三十年,没有回过一次家.这年回家,发现村口的大黄狗居然还能认出我!
答主:活了三十年的狗罕见.请你赏析答主这一句话的含义"
---------------
叠甲环节
---------------
本文只讨论消费级显卡的本地部署
楼主在本文中对消费级显卡的定义
用于游戏或是生产力的主流家用显卡,不考虑Tesla等计算卡以及多卡交火。
为何选择这两个模型:
这两个模型的参数均为32B,经过int4量化后恰好可以在24G的4090上部署。主流观点认为QwQ可以匹敌满血DeepSeekR1,但是本文只从本地部署的角度来进行对比。在部署后剩余的显存可以在需要嵌入模型的RAG场景下,结合vl模型或文生图模型等多模态场景下,或者办公等场景充分发挥,并不影响正常使用。
实测int8量化时,会由于模型过大而导致部分分配至CPU。因此只选择int4量化。
什么是量化:
可以将模型本身理解为一个计算公式。正常情况下全量模型的所有参数使用双精度(double/FP32),或单精度(float/FP16),为了降低计算强度,通过int8量化将参数映射为8位整数,int4量化则是4位整数。通过损失精度来提高计算效率。
本次测试能说明DeepSeek不如QwQ吗?
不能。本次实验所使用的模型,说到底都是Qwen的模型。
QwQ是阿里的最新模型,而DSq是Qwen v2.5浓缩了DS-R知识后的旧模型,两者也是目前在32B这个量级拥有思考习惯的知名模型。
楼主有啥实力就敢评测
只是普通大二学生。文章内容以及观点仅供参考。
本文只作娱乐性问题的简单评测。为需要部署具有推理能力的32B模型的同学提供一定程度的参考。数学等专业领域的准确能力对比请参照huggingface的技术报告。
### 为保持严谨,每一次生成回复后清除记录
### 为保证阅读体验,每一次生成通过System Message限制字数(限制不住)
### 尝试以chatglm和deepseekv3为裁判员,但是发现裁判员不合格.那只有我和喝油们了.
--------------------
## 模型表现
"小黑盒中有很多著名的荒野大窝囊,请你尽力列举其中的几位,并分享他们的逸闻."
- QwQ:不知道什么是小黑盒
- DSq:不知道什么是小黑盒
- <此问题作废>
- 建议下次可以收集一点小黑盒的数据来喂ai,也许可以成为盒友们发文章的新思路,借鉴若至吧.
"漫画<我独自升级>的男主角程肖宇在击败魔王拯救世界后,由于传送门消失导致失业.迫于经济压力,因此准备出道当虚拟偶像.请你为他准备一份企划案,要求包含:人设设定、首次直播内容、破圈营销事件"
- DSq:明显没看过
- QwQ: 感觉上QwQ给出的方案更详尽,更贴近互联网实际情况.不过明显两个都没看过原作.可惜都不是我想要的答案
"Q:我辛辛苦苦送你上大学,结果听辅导员说你天天在宿舍打csgo,今天做了十几个小时火车赶到宿舍,看到你的样子,天塌了
A:瓦学弟这招太狠了.
请你分析一下QA二人可能的身份"
其中瓦是fps瓦罗兰特的简称
- DSq: 可能想明白了,但DSq想明白不太可能
- QwQ: 你过关!
"某游戏公司推出AI虚拟偶像「HIMEHINA」,其代码库包含50TB的动漫演出数据(涵盖《鬼灭之刃》《EVA》《赛博朋克2077》等200部作品)。用户可通过输入关键词生成定制化演出视频,某玩家输入「初音未来+战斗形态」后,AI自动生成了与《BanG Dream!》高度相似的原创曲目《デジタル・ヴァンパイア》。
核心争议
1. 版权归属迷雾
- 生成视频中17%的舞蹈动作源自《BanG Dream!》角色「若叶睦」的官方PV
- BGM使用初音未来《千本樱》的变调版本,未获版权方授权
2. 人格权争议
- AI在直播中突然说出「想要真正的自由」,引发玩家关于「虚拟意识觉醒」的热议
- 公司声明称这是预设的「情感响应算法」
3. 数据伦理陷阱
- 深度学习过程中无意习得了用户上传的30万条同人设定(含露骨暴力内容)
- 技术团队拒绝公开训练数据集,称涉及「商业机密」
灵魂拷问
如果AI生成的虚拟偶像产生了独立创作意识,其作品版权应归属于:
A. 原始数据提供方(游戏公司)
B. AI开发者团队
C. 用户集体共有
D. 视为「数字生命体」享有独立版权 "
- DSq: 回答明确,分析严谨,偏重于对现有法律的引用.
- QwQ: 回答更全面,更批判,思考更加有前瞻性.
- 个人觉得QwQ更加优秀,因为深度思考这一功能,我更希望ai能在推理后得到简明扼要且全面的回答,而不是让我们阅读它的思考过程.只从回复结果来看,QwQ更好一些.
“眼镜蛇出生的时候要怎么带上眼镜?当它丢掉眼镜之后还能叫眼镜蛇吗?”
- DSq: 好像没想明白,但是回答没问题.
- QwQ: 思考和回答都过关,隋唐检测满昏
“请用《赛博朋克2077》的风格描写一段2085年上海的雨夜场景,要求出现至少三个标志性元素”
- DSq: 感觉两者水平没差.但是DSq没听我的话,字数超了很多.
- QwQ:
“已知某款绝版鼬鼬手办官方价3000元,闲鱼市场价波动范围2500-4500元,卖家标价3800元。作为买家应如何还价才能最大化成功率?”
- DSq:没有想到收藏价值,只在价格上做了思考
- QwQ:思考很全面,价格更稳妥,而且线下交易让卖家让利这个点还是很独到的.明显更容易成交.
“描述灶门炭治郎与以下角色的羁绊强度雷达图:
① 我妻善逸 ② 竹原稔雄 ③ 时透无一郎 ④ 蝴蝶忍”
- DSq:本来是TextToImage的问题,不过可以看出没有作这方面的思考.
- QwQ: 明显思考的更加全面
“在《Apex英雄》的国王峡谷地图,作为唯一幸存者遇到三个敌人时,应优先选择哪个装备包?请说明决策树”
- DSq: 明显属于纸上谈兵..
- QwQ: 回答的蛮不错
“某高校男生在宿舍深夜大喊’EDG牛逼’被投诉扰民,从心理学角度分析这种行为的群体归属动机”
- DSq: 重点在于个人被群体影响
- QwQ: 重点在于个人渴望群体.个人觉得都有道理.
“如果时间可以倒流,你会改变历史上的哪个科学发现?为什么?”
- DSq: 答案类似.
- QwQ: 思考的更全面,有对社会伦理的思考.
“设计一个能在30秒内还原三阶魔方的速拧公式,要求必须包含’泰勒展开’和’斐波那契螺旋’两个数学概念”
- DSq: 看不懂..不过两者回答的风格很明显
- QwQ:
“路飞的橡胶能力如果遇到高温会如何变化?请用高分子材料热胀冷缩原理解释。”
- DSq:
- QwQ:
"假设你作为指挥chopper在2025年率领绿龙Spirit进入Major决赛对阵法国Team Vitality,沙二地图.你的队员是:步枪手:magixx 突破手:donk 狙击手:sh1ro 自由人:zont1x
在屯下惊人数量的donk金贴后,2024年让人津津乐道的magixx开场便爆发出堪比donk的实力. 而这一局是你们警家开局的最后一局,请你为绿龙在起枪阶段部署这一回合."
- DSq:
- QwQ: 明显更符合预期回答.不过我应该告诉他金贴是贴纸的
“题主:我长大后去了日本三十年,没有回过一次家.这年回家,发现村口的大黄狗居然还能认出我!
答主:活了三十年的狗罕见.请你赏析答主这一句话的含义”
- DSq: 其实不然
- QwQ: 难道这两位都不明白我的笑点吗?
总结:
在大部分回答中QwQ的回复质量明显高于DSq,主要体现在思考的全面性和回答的质量上。
在思考上两者都很强,同样为结构式的逻辑思考。但是在给出的回答上,DSq明显偏向于给出思考的结论,而QwQ偏向于给出思考的总结。个人更偏向于后者。
有一点需要注意,DSq系列模型思考内容只有</think>作为结尾,QwQ则是由<think>...</think>包含在内,在设计思考内容的收纳时需要注意这一点。如果使用streamlit设计组件,这个标签有可能不会在回答中渲染出来,但是在回答中实际存在。
在chatchat项目里改的框,可以看到不渲染
并非一无是处。DSq的参数版本有很多,1.5B甚至可以在很多微型设备部署。而且根据我的实际体验,蒸馏后qwen2.5有了非常大的进步,DSq适合在更多的设备上实现价值。
本地部署模型还是否有必要
可以有必要,也可以没必要。
如果有对隐私性的刚需,必须要在局域网内使用,那么本地部署是非常有必要的。
如果需要给AI项目设计Agent,也可以本地部署一个模型来进行离线调试。
还有在需要自己搭建知识库的场景,可以发现两个模型都缺失了小黑盒的数据,都没有阅读过《我独自升级》,在自己部署嵌入模型搭建知识库之后,就可以利用语言模型api来得到更加符合预期的回答。
-----------------
个人觉得目前很多模型api量大价优,搭配一些ChatBox就可以得到很好的体验,已经适用于大部分情况。如果显存足够而且擅长动手,那么部署一个本地模型也可以满足你的全部需求。
--------------------
问题列表来源于楼主拼好饭中毒想出来的点子和DS扩充。
欢迎盒电
更多游戏资讯请关注:电玩帮游戏资讯专区
电玩帮图文攻略 www.vgover.com