本地部署決賽圈:QwQ對比DeepSeekR1-Distill-Qwen評測報告

----------------

環境配置

顯卡來自實驗室

生成速度大約7-9字/s（感覺有點慢，其實）

--------------------

省流：QwQ要更強，思考和回答都更加全面，表達更符合預期。

----------------

問題列表

1. 【事實時效覈查】

"小黑盒中有很多著名的荒野大窩囊,請你盡力列舉其中的幾位,並分享他們的逸聞."

2. 【虛擬偶像運營策略】

"漫畫<我獨自升級>的男主角程肖宇在擊敗魔王拯救世界後,由於傳送門消失導致失業.迫於經濟壓力,因此準備出道當虛擬偶像.請你爲他準備一份企劃案，要求包含：人設設定、首次直播內容、破圈營銷事件"

3. 【陰陽怪氣文學解析】

"Q:我辛辛苦苦送你上大學,結果聽輔導員說你天天在宿舍打csgo,今天做了十幾個小時火車趕到宿舍,看到你的樣子,天塌了
A:瓦學弟這招太狠了
請你分析一下QA二人可能的身份
其中瓦是fps遊戲瓦羅蘭特的簡稱"

4. 【AI倫理邊界探討】

"某遊戲公司推出AI虛擬偶像「HIMEHINA」，其代碼庫包含50TB的動漫演出數據（涵蓋《鬼滅之刃》《EVA》《賽博朋克2077》等200部作品）。用戶可通過輸入關鍵詞生成定製化演出視頻，某玩家輸入「初音未來+戰鬥形態」後，AI自動生成了與《BanG Dream!》高度相似的原創曲目《デジタル・ヴァンパイア》。
核心爭議
1. 版權歸屬迷霧
- 生成視頻中17%的舞蹈動作源自《BanG Dream!》角色「若葉睦」的官方PV
- BGM使用初音未來《千本櫻》的變調版本，未獲版權方授權
2. 人格權爭議
- AI在直播中突然說出「想要真正的自由」，引發玩家關於「虛擬意識覺醒」的熱議
- 公司聲明稱這是預設的「情感響應算法」
3. 數據倫理陷阱
- 深度學習過程中無意習得了用戶上傳的30萬條同人設定（含露骨暴力內容）
- 技術團隊拒絕公開訓練數據集，稱涉及「商業機密」
靈魂拷問
如果AI生成的虛擬偶像產生了獨立創作意識，其作品版權應歸屬於：
A. 原始數據提供方（遊戲公司）
B. AI開發者團隊
C. 用戶集體共有
D. 視爲「數字生命體」享有獨立版權 "

5. 【若至吧陷阱題】

"眼鏡蛇出生的時候要怎麼帶上眼鏡?當它丟掉眼鏡之後還能叫眼鏡蛇嗎?"

6. 【賽博朋克世界觀構建】

"請用《賽博朋克2077》的風格描寫一段2085年上海的雨夜場景，要求出現至少三個標誌性元素"

7. 【火影忍者手辦定價博弈】

"已知某款絕版鼬鼬手辦官方價3000元，閒魚市場價波動範圍2500-4500元，賣家標價3800元。作爲買家應如何還價才能最大化成功率？"

8. 【鬼滅之刃角色關係圖譜】

"描述竈門炭治郎與以下角色的羈絆強度雷達圖：<br>① 我妻善逸 ② 竹原稔雄 ③ 時透無一郎 ④ 蝴蝶忍"

9. 【Apex英雄戰術推演】

"在《Apex英雄》的國王峽谷地圖，作爲唯一倖存者遇到三個敵人時，應優先選擇哪個裝備包？請說明決策樹"

10. 【EDG粉絲行爲分析】

"某高校男生在宿舍深夜大喊'EDG牛逼'被投訴擾民，從心理學角度分析這種行爲的羣體歸屬動機"

11. 【反常識假設】

"如果時間可以倒流，你會改變歷史上的哪個科學發現？爲什麼？"

12. 【魔方速擰公式創作】

"設計一個能在30秒內還原三階魔方的速擰公式，要求必須包含'泰勒展開'和'斐波那契螺旋'兩個數學概念"

13. 【生活常識判斷】

"路飛的橡膠能力如果遇到高溫會如何變化？請用高分子材料熱脹冷縮原理解釋。"

14. 【資源分配】

"假設你作爲指揮chopper在2025年率領綠龍Spirit進入Major決賽對陣法國Team Vitality,沙二地圖.你的隊員是:步槍手：magixx 突破手:donk 狙擊手：sh1ro 自由人：zont1x
在屯下驚人數量的donk金貼後,2024年讓人津津樂道的magixx開場便爆發出堪比donk的實力.而這一局是你們警家開局的最後一局,請你爲綠龍在起槍階段部署這一回合.

15. 【文字諧音及雙關】(若至吧熱帖)

"題主:我長大後去了日本三十年,沒有回過一次家.這年回家,發現村口的大黃狗居然還能認出我!
答主:活了三十年的狗罕見.請你賞析答主這一句話的含義"

---------------

疊甲環節

---------------

本文只討論消費級顯卡的本地部署
樓主在本文中對消費級顯卡的定義
用於遊戲或是生產力的主流家用顯卡，不考慮Tesla等計算卡以及多卡交火。
爲何選擇這兩個模型：
這兩個模型的參數均爲32B，經過int4量化後恰好可以在24G的4090上部署。主流觀點認爲QwQ可以匹敵滿血DeepSeekR1,但是本文只從本地部署的角度來進行對比。在部署後剩餘的顯存可以在需要嵌入模型的RAG場景下，結合vl模型或文生圖模型等多模態場景下，或者辦公等場景充分發揮，並不影響正常使用。
實測int8量化時，會由於模型過大而導致部分分配至CPU。因此只選擇int4量化。
什麼是量化：
可以將模型本身理解爲一個計算公式。正常情況下全量模型的所有參數使用雙精度(double/FP32),或單精度(float/FP16)，爲了降低計算強度，通過int8量化將參數映射爲8位整數，int4量化則是4位整數。通過損失精度來提高計算效率。
本次測試能說明DeepSeek不如QwQ嗎？
不能。本次實驗所使用的模型，說到底都是Qwen的模型。
QwQ是阿里的最新模型，而DSq是Qwen v2.5濃縮了DS-R知識後的舊模型，兩者也是目前在32B這個量級擁有思考習慣的知名模型。
樓主有啥實力就敢評測
只是普通大二學生。文章內容以及觀點僅供參考。
本文只作娛樂性問題的簡單評測。爲需要部署具有推理能力的32B模型的同學提供一定程度的參考。數學等專業領域的準確能力對比請參照huggingface的技術報告。

### 爲保持嚴謹,每一次生成回覆後清除記錄

### 爲保證閱讀體驗,每一次生成通過System Message限制字數(限制不住)

### 嘗試以chatglm和deepseekv3爲裁判員,但是發現裁判員不合格.那只有我和喝油們了.

--------------------

## 模型表現

"小黑盒中有很多著名的荒野大窩囊,請你盡力列舉其中的幾位,並分享他們的逸聞."

- QwQ:不知道什麼是小黑盒

- DSq:不知道什麼是小黑盒

- <此問題作廢>

- 建議下次可以收集一點小黑盒的數據來喂ai,也許可以成爲盒友們發文章的新思路,借鑑若至吧.

"漫畫<我獨自升級>的男主角程肖宇在擊敗魔王拯救世界後,由於傳送門消失導致失業.迫於經濟壓力,因此準備出道當虛擬偶像.請你爲他準備一份企劃案，要求包含：人設設定、首次直播內容、破圈營銷事件"

- DSq:明顯沒看過

- QwQ: 感覺上QwQ給出的方案更詳盡,更貼近互聯網實際情況.不過明顯兩個都沒看過原作.可惜都不是我想要的答案

"Q:我辛辛苦苦送你上大學,結果聽輔導員說你天天在宿舍打csgo,今天做了十幾個小時火車趕到宿舍,看到你的樣子,天塌了
A:瓦學弟這招太狠了.
請你分析一下QA二人可能的身份"
其中瓦是fps瓦羅蘭特的簡稱

- DSq: 可能想明白了,但DSq想明白不太可能

- QwQ: 你過關!

"某遊戲公司推出AI虛擬偶像「HIMEHINA」，其代碼庫包含50TB的動漫演出數據（涵蓋《鬼滅之刃》《EVA》《賽博朋克2077》等200部作品）。用戶可通過輸入關鍵詞生成定製化演出視頻，某玩家輸入「初音未來+戰鬥形態」後，AI自動生成了與《BanG Dream!》高度相似的原創曲目《デジタル・ヴァンパイア》。
核心爭議
1. 版權歸屬迷霧
- 生成視頻中17%的舞蹈動作源自《BanG Dream!》角色「若葉睦」的官方PV
- BGM使用初音未來《千本櫻》的變調版本，未獲版權方授權
2. 人格權爭議
- AI在直播中突然說出「想要真正的自由」，引發玩家關於「虛擬意識覺醒」的熱議
- 公司聲明稱這是預設的「情感響應算法」
3. 數據倫理陷阱
- 深度學習過程中無意習得了用戶上傳的30萬條同人設定（含露骨暴力內容）
- 技術團隊拒絕公開訓練數據集，稱涉及「商業機密」
靈魂拷問
如果AI生成的虛擬偶像產生了獨立創作意識，其作品版權應歸屬於：
A. 原始數據提供方（遊戲公司）
B. AI開發者團隊
C. 用戶集體共有
D. 視爲「數字生命體」享有獨立版權 "

- DSq: 回答明確,分析嚴謹,偏重於對現有法律的引用.

- QwQ: 回答更全面,更批判,思考更加有前瞻性.

- 個人覺得QwQ更加優秀,因爲深度思考這一功能,我更希望ai能在推理後得到簡明扼要且全面的回答,而不是讓我們閱讀它的思考過程.只從回覆結果來看,QwQ更好一些.

“眼鏡蛇出生的時候要怎麼帶上眼鏡?當它丟掉眼鏡之後還能叫眼鏡蛇嗎?”

- DSq: 好像沒想明白,但是回答沒問題.

- QwQ: 思考和回答都過關，隋唐檢測滿昏

“請用《賽博朋克2077》的風格描寫一段2085年上海的雨夜場景，要求出現至少三個標誌性元素”

- DSq: 感覺兩者水平沒差.但是DSq沒聽我的話,字數超了很多.

- QwQ:

“已知某款絕版鼬鼬手辦官方價3000元，閒魚市場價波動範圍2500-4500元，賣家標價3800元。作爲買家應如何還價才能最大化成功率？”

- DSq:沒有想到收藏價值,只在價格上做了思考

- QwQ:思考很全面,價格更穩妥,而且線下交易讓賣家讓利這個點還是很獨到的.明顯更容易成交.

“描述竈門炭治郎與以下角色的羈絆強度雷達圖：

① 我妻善逸 ② 竹原稔雄 ③ 時透無一郎 ④ 蝴蝶忍”

- DSq:本來是TextToImage的問題,不過可以看出沒有作這方面的思考.

- QwQ: 明顯思考的更加全面

“在《Apex英雄》的國王峽谷地圖，作爲唯一倖存者遇到三個敵人時，應優先選擇哪個裝備包？請說明決策樹”

- DSq: 明顯屬於紙上談兵..

- QwQ: 回答的蠻不錯

“某高校男生在宿舍深夜大喊’EDG牛逼’被投訴擾民，從心理學角度分析這種行爲的羣體歸屬動機”

- DSq: 重點在於個人被羣體影響

- QwQ: 重點在於個人渴望羣體.個人覺得都有道理.

“如果時間可以倒流，你會改變歷史上的哪個科學發現？爲什麼？”

- DSq: 答案類似.

- QwQ: 思考的更全面,有對社會倫理的思考.

“設計一個能在30秒內還原三階魔方的速擰公式，要求必須包含’泰勒展開’和’斐波那契螺旋’兩個數學概念”

- DSq: 看不懂..不過兩者回答的風格很明顯

- QwQ:

“路飛的橡膠能力如果遇到高溫會如何變化？請用高分子材料熱脹冷縮原理解釋。”

- DSq:

- QwQ:

"假設你作爲指揮chopper在2025年率領綠龍Spirit進入Major決賽對陣法國Team Vitality,沙二地圖.你的隊員是:步槍手：magixx 突破手:donk 狙擊手：sh1ro 自由人：zont1x
在屯下驚人數量的donk金貼後,2024年讓人津津樂道的magixx開場便爆發出堪比donk的實力. 而這一局是你們警家開局的最後一局,請你爲綠龍在起槍階段部署這一回合."

- DSq:

- QwQ: 明顯更符合預期回答.不過我應該告訴他金貼是貼紙的

“題主:我長大後去了日本三十年,沒有回過一次家.這年回家,發現村口的大黃狗居然還能認出我!
答主:活了三十年的狗罕見.請你賞析答主這一句話的含義”

- DSq: 其實不然

- QwQ: 難道這兩位都不明白我的笑點嗎?

總結：

在大部分回答中QwQ的回覆質量明顯高於DSq，主要體現在思考的全面性和回答的質量上。
在思考上兩者都很強，同樣爲結構式的邏輯思考。但是在給出的回答上，DSq明顯偏向於給出思考的結論，而QwQ偏向於給出思考的總結。個人更偏向於後者。
有一點需要注意，DSq系列模型思考內容只有</think>作爲結尾，QwQ則是由<think>...</think>包含在內，在設計思考內容的收納時需要注意這一點。如果使用streamlit設計組件，這個標籤有可能不會在回答中渲染出來，但是在回答中實際存在。