----------------
環境配置
顯卡來自實驗室
生成速度大約7-9字/s(感覺有點慢,其實)
--------------------
省流:QwQ要更強,思考和回答都更加全面,表達更符合預期。
----------------
問題列表
1. 【事實時效覈查】
"小黑盒中有很多著名的荒野大窩囊,請你盡力列舉其中的幾位,並分享他們的逸聞."
2. 【虛擬偶像運營策略】
"漫畫<我獨自升級>的男主角程肖宇在擊敗魔王拯救世界後,由於傳送門消失導致失業.迫於經濟壓力,因此準備出道當虛擬偶像.請你爲他準備一份企劃案,要求包含:人設設定、首次直播內容、破圈營銷事件"
3. 【陰陽怪氣文學解析】
"Q:我辛辛苦苦送你上大學,結果聽輔導員說你天天在宿舍打csgo,今天做了十幾個小時火車趕到宿舍,看到你的樣子,天塌了
A:瓦學弟這招太狠了
請你分析一下QA二人可能的身份
其中瓦是fps遊戲瓦羅蘭特的簡稱"
4. 【AI倫理邊界探討】
"某遊戲公司推出AI虛擬偶像「HIMEHINA」,其代碼庫包含50TB的動漫演出數據(涵蓋《鬼滅之刃》《EVA》《賽博朋克2077》等200部作品)。用戶可通過輸入關鍵詞生成定製化演出視頻,某玩家輸入「初音未來+戰鬥形態」後,AI自動生成了與《BanG Dream!》高度相似的原創曲目《デジタル・ヴァンパイア》。
核心爭議
1. 版權歸屬迷霧
- 生成視頻中17%的舞蹈動作源自《BanG Dream!》角色「若葉睦」的官方PV
- BGM使用初音未來《千本櫻》的變調版本,未獲版權方授權
2. 人格權爭議
- AI在直播中突然說出「想要真正的自由」,引發玩家關於「虛擬意識覺醒」的熱議
- 公司聲明稱這是預設的「情感響應算法」
3. 數據倫理陷阱
- 深度學習過程中無意習得了用戶上傳的30萬條同人設定(含露骨暴力內容)
- 技術團隊拒絕公開訓練數據集,稱涉及「商業機密」
靈魂拷問
如果AI生成的虛擬偶像產生了獨立創作意識,其作品版權應歸屬於:
A. 原始數據提供方(遊戲公司)
B. AI開發者團隊
C. 用戶集體共有
D. 視爲「數字生命體」享有獨立版權 "
5. 【若至吧陷阱題】
"眼鏡蛇出生的時候要怎麼帶上眼鏡?當它丟掉眼鏡之後還能叫眼鏡蛇嗎?"
6. 【賽博朋克世界觀構建】
"請用《賽博朋克2077》的風格描寫一段2085年上海的雨夜場景,要求出現至少三個標誌性元素"
7. 【火影忍者手辦定價博弈】
"已知某款絕版鼬鼬手辦官方價3000元,閒魚市場價波動範圍2500-4500元,賣家標價3800元。作爲買家應如何還價才能最大化成功率?"
8. 【鬼滅之刃角色關係圖譜】
"描述竈門炭治郎與以下角色的羈絆強度雷達圖:<br>① 我妻善逸 ② 竹原稔雄 ③ 時透無一郎 ④ 蝴蝶忍"
9. 【Apex英雄戰術推演】
"在《Apex英雄》的國王峽谷地圖,作爲唯一倖存者遇到三個敵人時,應優先選擇哪個裝備包?請說明決策樹"
10. 【EDG粉絲行爲分析】
"某高校男生在宿舍深夜大喊'EDG牛逼'被投訴擾民,從心理學角度分析這種行爲的羣體歸屬動機"
11. 【反常識假設】
"如果時間可以倒流,你會改變歷史上的哪個科學發現?爲什麼?"
12. 【魔方速擰公式創作】
"設計一個能在30秒內還原三階魔方的速擰公式,要求必須包含'泰勒展開'和'斐波那契螺旋'兩個數學概念"
13. 【生活常識判斷】
"路飛的橡膠能力如果遇到高溫會如何變化?請用高分子材料熱脹冷縮原理解釋。"
14. 【資源分配】
"假設你作爲指揮chopper在2025年率領綠龍Spirit進入Major決賽對陣法國Team Vitality,沙二地圖.你的隊員是:步槍手:magixx 突破手:donk 狙擊手:sh1ro 自由人:zont1x
在屯下驚人數量的donk金貼後,2024年讓人津津樂道的magixx開場便爆發出堪比donk的實力.而這一局是你們警家開局的最後一局,請你爲綠龍在起槍階段部署這一回合.
15. 【文字諧音及雙關】(若至吧熱帖)
"題主:我長大後去了日本三十年,沒有回過一次家.這年回家,發現村口的大黃狗居然還能認出我!
答主:活了三十年的狗罕見.請你賞析答主這一句話的含義"
---------------
疊甲環節
---------------
本文只討論消費級顯卡的本地部署
樓主在本文中對消費級顯卡的定義
用於遊戲或是生產力的主流家用顯卡,不考慮Tesla等計算卡以及多卡交火。
爲何選擇這兩個模型:
這兩個模型的參數均爲32B,經過int4量化後恰好可以在24G的4090上部署。主流觀點認爲QwQ可以匹敵滿血DeepSeekR1,但是本文只從本地部署的角度來進行對比。在部署後剩餘的顯存可以在需要嵌入模型的RAG場景下,結合vl模型或文生圖模型等多模態場景下,或者辦公等場景充分發揮,並不影響正常使用。
實測int8量化時,會由於模型過大而導致部分分配至CPU。因此只選擇int4量化。
什麼是量化:
可以將模型本身理解爲一個計算公式。正常情況下全量模型的所有參數使用雙精度(double/FP32),或單精度(float/FP16),爲了降低計算強度,通過int8量化將參數映射爲8位整數,int4量化則是4位整數。通過損失精度來提高計算效率。
本次測試能說明DeepSeek不如QwQ嗎?
不能。本次實驗所使用的模型,說到底都是Qwen的模型。
QwQ是阿里的最新模型,而DSq是Qwen v2.5濃縮了DS-R知識後的舊模型,兩者也是目前在32B這個量級擁有思考習慣的知名模型。
樓主有啥實力就敢評測
只是普通大二學生。文章內容以及觀點僅供參考。
本文只作娛樂性問題的簡單評測。爲需要部署具有推理能力的32B模型的同學提供一定程度的參考。數學等專業領域的準確能力對比請參照huggingface的技術報告。
### 爲保持嚴謹,每一次生成回覆後清除記錄
### 爲保證閱讀體驗,每一次生成通過System Message限制字數(限制不住)
### 嘗試以chatglm和deepseekv3爲裁判員,但是發現裁判員不合格.那只有我和喝油們了.
--------------------
## 模型表現
"小黑盒中有很多著名的荒野大窩囊,請你盡力列舉其中的幾位,並分享他們的逸聞."
- QwQ:不知道什麼是小黑盒
- DSq:不知道什麼是小黑盒
- <此問題作廢>
- 建議下次可以收集一點小黑盒的數據來喂ai,也許可以成爲盒友們發文章的新思路,借鑑若至吧.
"漫畫<我獨自升級>的男主角程肖宇在擊敗魔王拯救世界後,由於傳送門消失導致失業.迫於經濟壓力,因此準備出道當虛擬偶像.請你爲他準備一份企劃案,要求包含:人設設定、首次直播內容、破圈營銷事件"
- DSq:明顯沒看過
- QwQ: 感覺上QwQ給出的方案更詳盡,更貼近互聯網實際情況.不過明顯兩個都沒看過原作.可惜都不是我想要的答案
"Q:我辛辛苦苦送你上大學,結果聽輔導員說你天天在宿舍打csgo,今天做了十幾個小時火車趕到宿舍,看到你的樣子,天塌了
A:瓦學弟這招太狠了.
請你分析一下QA二人可能的身份"
其中瓦是fps瓦羅蘭特的簡稱
- DSq: 可能想明白了,但DSq想明白不太可能
- QwQ: 你過關!
"某遊戲公司推出AI虛擬偶像「HIMEHINA」,其代碼庫包含50TB的動漫演出數據(涵蓋《鬼滅之刃》《EVA》《賽博朋克2077》等200部作品)。用戶可通過輸入關鍵詞生成定製化演出視頻,某玩家輸入「初音未來+戰鬥形態」後,AI自動生成了與《BanG Dream!》高度相似的原創曲目《デジタル・ヴァンパイア》。
核心爭議
1. 版權歸屬迷霧
- 生成視頻中17%的舞蹈動作源自《BanG Dream!》角色「若葉睦」的官方PV
- BGM使用初音未來《千本櫻》的變調版本,未獲版權方授權
2. 人格權爭議
- AI在直播中突然說出「想要真正的自由」,引發玩家關於「虛擬意識覺醒」的熱議
- 公司聲明稱這是預設的「情感響應算法」
3. 數據倫理陷阱
- 深度學習過程中無意習得了用戶上傳的30萬條同人設定(含露骨暴力內容)
- 技術團隊拒絕公開訓練數據集,稱涉及「商業機密」
靈魂拷問
如果AI生成的虛擬偶像產生了獨立創作意識,其作品版權應歸屬於:
A. 原始數據提供方(遊戲公司)
B. AI開發者團隊
C. 用戶集體共有
D. 視爲「數字生命體」享有獨立版權 "
- DSq: 回答明確,分析嚴謹,偏重於對現有法律的引用.
- QwQ: 回答更全面,更批判,思考更加有前瞻性.
- 個人覺得QwQ更加優秀,因爲深度思考這一功能,我更希望ai能在推理後得到簡明扼要且全面的回答,而不是讓我們閱讀它的思考過程.只從回覆結果來看,QwQ更好一些.
“眼鏡蛇出生的時候要怎麼帶上眼鏡?當它丟掉眼鏡之後還能叫眼鏡蛇嗎?”
- DSq: 好像沒想明白,但是回答沒問題.
- QwQ: 思考和回答都過關,隋唐檢測滿昏
“請用《賽博朋克2077》的風格描寫一段2085年上海的雨夜場景,要求出現至少三個標誌性元素”
- DSq: 感覺兩者水平沒差.但是DSq沒聽我的話,字數超了很多.
- QwQ:
“已知某款絕版鼬鼬手辦官方價3000元,閒魚市場價波動範圍2500-4500元,賣家標價3800元。作爲買家應如何還價才能最大化成功率?”
- DSq:沒有想到收藏價值,只在價格上做了思考
- QwQ:思考很全面,價格更穩妥,而且線下交易讓賣家讓利這個點還是很獨到的.明顯更容易成交.
“描述竈門炭治郎與以下角色的羈絆強度雷達圖:
① 我妻善逸 ② 竹原稔雄 ③ 時透無一郎 ④ 蝴蝶忍”
- DSq:本來是TextToImage的問題,不過可以看出沒有作這方面的思考.
- QwQ: 明顯思考的更加全面
“在《Apex英雄》的國王峽谷地圖,作爲唯一倖存者遇到三個敵人時,應優先選擇哪個裝備包?請說明決策樹”
- DSq: 明顯屬於紙上談兵..
- QwQ: 回答的蠻不錯
“某高校男生在宿舍深夜大喊’EDG牛逼’被投訴擾民,從心理學角度分析這種行爲的羣體歸屬動機”
- DSq: 重點在於個人被羣體影響
- QwQ: 重點在於個人渴望羣體.個人覺得都有道理.
“如果時間可以倒流,你會改變歷史上的哪個科學發現?爲什麼?”
- DSq: 答案類似.
- QwQ: 思考的更全面,有對社會倫理的思考.
“設計一個能在30秒內還原三階魔方的速擰公式,要求必須包含’泰勒展開’和’斐波那契螺旋’兩個數學概念”
- DSq: 看不懂..不過兩者回答的風格很明顯
- QwQ:
“路飛的橡膠能力如果遇到高溫會如何變化?請用高分子材料熱脹冷縮原理解釋。”
- DSq:
- QwQ:
"假設你作爲指揮chopper在2025年率領綠龍Spirit進入Major決賽對陣法國Team Vitality,沙二地圖.你的隊員是:步槍手:magixx 突破手:donk 狙擊手:sh1ro 自由人:zont1x
在屯下驚人數量的donk金貼後,2024年讓人津津樂道的magixx開場便爆發出堪比donk的實力. 而這一局是你們警家開局的最後一局,請你爲綠龍在起槍階段部署這一回合."
- DSq:
- QwQ: 明顯更符合預期回答.不過我應該告訴他金貼是貼紙的
“題主:我長大後去了日本三十年,沒有回過一次家.這年回家,發現村口的大黃狗居然還能認出我!
答主:活了三十年的狗罕見.請你賞析答主這一句話的含義”
- DSq: 其實不然
- QwQ: 難道這兩位都不明白我的笑點嗎?
總結:
在大部分回答中QwQ的回覆質量明顯高於DSq,主要體現在思考的全面性和回答的質量上。
在思考上兩者都很強,同樣爲結構式的邏輯思考。但是在給出的回答上,DSq明顯偏向於給出思考的結論,而QwQ偏向於給出思考的總結。個人更偏向於後者。
有一點需要注意,DSq系列模型思考內容只有</think>作爲結尾,QwQ則是由<think>...</think>包含在內,在設計思考內容的收納時需要注意這一點。如果使用streamlit設計組件,這個標籤有可能不會在回答中渲染出來,但是在回答中實際存在。
在chatchat項目裏改的框,可以看到不渲染
並非一無是處。DSq的參數版本有很多,1.5B甚至可以在很多微型設備部署。而且根據我的實際體驗,蒸餾後qwen2.5有了非常大的進步,DSq適合在更多的設備上實現價值。
本地部署模型還是否有必要
可以有必要,也可以沒必要。
如果有對隱私性的剛需,必須要在局域網內使用,那麼本地部署是非常有必要的。
如果需要給AI項目設計Agent,也可以本地部署一個模型來進行離線調試。
還有在需要自己搭建知識庫的場景,可以發現兩個模型都缺失了小黑盒的數據,都沒有閱讀過《我獨自升級》,在自己部署嵌入模型搭建知識庫之後,就可以利用語言模型api來得到更加符合預期的回答。
-----------------
個人覺得目前很多模型api量大價優,搭配一些ChatBox就可以得到很好的體驗,已經適用於大部分情況。如果顯存足夠而且擅長動手,那麼部署一個本地模型也可以滿足你的全部需求。
--------------------
問題列表來源於樓主拼好飯中毒想出來的點子和DS擴充。
歡迎盒電
更多遊戲資訊請關註:電玩幫遊戲資訊專區
電玩幫圖文攻略 www.vgover.com