本地部署決賽圈:QwQ對比DeepSeekR1-Distill-Qwen評測報告

----------------

環境配置

顯卡來自實驗室

生成速度大約7-9字/s(感覺有點慢,其實

--------------------

省流:QwQ要更強,思考和回答都更加全面,表達更符合預期。

----------------

問題列表

  • 1. 【事實時效覈查】

"小黑盒中有很多著名的荒野大窩囊,請你盡力列舉其中的幾位,並分享他們的逸聞."

  • 2. 【虛擬偶像運營策略】

"漫畫<我獨自升級>的男主角程肖宇在擊敗魔王拯救世界後,由於傳送門消失導致失業.迫於經濟壓力,因此準備出道當虛擬偶像.請你爲他準備一份企劃案,要求包含:人設設定、首次直播內容、破圈營銷事件"

  • 3. 【陰陽怪氣文學解析】

"Q:我辛辛苦苦送你上大學,結果聽輔導員說你天天在宿舍打csgo,今天做了十幾個小時火車趕到宿舍,看到你的樣子,天塌了

A:瓦學弟這招太狠了

請你分析一下QA二人可能的身份

其中瓦是fps遊戲瓦羅蘭特的簡稱"

  • 4. 【AI倫理邊界探討】

"某遊戲公司推出AI虛擬偶像「HIMEHINA」,其代碼庫包含50TB的動漫演出數據(涵蓋《鬼滅之刃》《EVA》《賽博朋克2077》等200部作品)。用戶可通過輸入關鍵詞生成定製化演出視頻,某玩家輸入「初音未來+戰鬥形態」後,AI自動生成了與《BanG Dream!》高度相似的原創曲目《デジタル・ヴァンパイア》。

核心爭議

1. 版權歸屬迷霧

- 生成視頻中17%的舞蹈動作源自《BanG Dream!》角色「若葉睦」的官方PV

- BGM使用初音未來《千本櫻》的變調版本,未獲版權方授權

2. 人格權爭議

- AI在直播中突然說出「想要真正的自由」,引發玩家關於「虛擬意識覺醒」的熱議

- 公司聲明稱這是預設的「情感響應算法」

3. 數據倫理陷阱

- 深度學習過程中無意習得了用戶上傳的30萬條同人設定(含露骨暴力內容)

- 技術團隊拒絕公開訓練數據集,稱涉及「商業機密」

靈魂拷問

如果AI生成的虛擬偶像產生了獨立創作意識,其作品版權應歸屬於:

A. 原始數據提供方(遊戲公司)

B. AI開發者團隊

C. 用戶集體共有

D. 視爲「數字生命體」享有獨立版權 "

  • 5. 【若至吧陷阱題】

"眼鏡蛇出生的時候要怎麼帶上眼鏡?當它丟掉眼鏡之後還能叫眼鏡蛇嗎?"

  • 6. 【賽博朋克世界觀構建】

"請用《賽博朋克2077》的風格描寫一段2085年上海的雨夜場景,要求出現至少三個標誌性元素"

  • 7. 【火影忍者手辦定價博弈】

"已知某款絕版鼬鼬手辦官方價3000元,閒魚市場價波動範圍2500-4500元,賣家標價3800元。作爲買家應如何還價才能最大化成功率?"

  •  8. 【鬼滅之刃角色關係圖譜】

"描述竈門炭治郎與以下角色的羈絆強度雷達圖:<br>① 我妻善逸 ② 竹原稔雄 ③ 時透無一郎     ④ 蝴蝶忍"

  •  9. 【Apex英雄戰術推演】

"在《Apex英雄》的國王峽谷地圖,作爲唯一倖存者遇到三個敵人時,應優先選擇哪個裝備包?請說明決策樹"

  • 10. 【EDG粉絲行爲分析】

"某高校男生在宿舍深夜大喊'EDG牛逼'被投訴擾民,從心理學角度分析這種行爲的羣體歸屬動機"

  • 11. 【反常識假設】

"如果時間可以倒流,你會改變歷史上的哪個科學發現?爲什麼?"

  • 12. 【魔方速擰公式創作】

"設計一個能在30秒內還原三階魔方的速擰公式,要求必須包含'泰勒展開'和'斐波那契螺旋'兩個數學概念"

  • 13. 【生活常識判斷】

"路飛的橡膠能力如果遇到高溫會如何變化?請用高分子材料熱脹冷縮原理解釋。"

  • 14. 【資源分配】

"假設你作爲指揮chopper在2025年率領綠龍Spirit進入Major決賽對陣法國Team Vitality,沙二地圖.你的隊員是:步槍手:magixx 突破手:donk 狙擊手:sh1ro 自由人:zont1x

在屯下驚人數量的donk金貼後,2024年讓人津津樂道的magixx開場便爆發出堪比donk的實力.而這一局是你們警家開局的最後一局,請你爲綠龍在起槍階段部署這一回合.

  • 15. 【文字諧音及雙關】(若至吧熱帖)

"題主:我長大後去了日本三十年,沒有回過一次家.這年回家,發現村口的大黃狗居然還能認出我!

答主:活了三十年的狗罕見.請你賞析答主這一句話的含義"

---------------

疊甲環節

---------------

  • 本文只討論消費級顯卡的本地部署

  • 樓主在本文中對消費級顯卡的定義

    • 用於遊戲或是生產力的主流家用顯卡,不考慮Tesla等計算卡以及多卡交火。

  • 爲何選擇這兩個模型:

    • 這兩個模型的參數均爲32B,經過int4量化後恰好可以在24G的4090上部署。主流觀點認爲QwQ可以匹敵滿血DeepSeekR1,但是本文只從本地部署的角度來進行對比。在部署後剩餘的顯存可以在需要嵌入模型的RAG場景下,結合vl模型或文生圖模型等多模態場景下,或者辦公等場景充分發揮,並不影響正常使用。

    • 實測int8量化時,會由於模型過大而導致部分分配至CPU。因此只選擇int4量化。

    • 什麼是量化:

      • 可以將模型本身理解爲一個計算公式。正常情況下全量模型的所有參數使用雙精度(double/FP32),或單精度(float/FP16),爲了降低計算強度,通過int8量化將參數映射爲8位整數,int4量化則是4位整數。通過損失精度來提高計算效率。

  • 本次測試能說明DeepSeek不如QwQ嗎?

    • 不能。本次實驗所使用的模型,說到底都是Qwen的模型。

      • QwQ是阿里的最新模型,而DSq是Qwen v2.5濃縮了DS-R知識後的舊模型,兩者也是目前在32B這個量級擁有思考習慣的知名模型。

  • 樓主有啥實力就敢評測

    • 只是普通大二學生。文章內容以及觀點僅供參考。

    • 本文只作娛樂性問題的簡單評測。爲需要部署具有推理能力的32B模型的同學提供一定程度的參考。數學等專業領域的準確能力對比請參照huggingface的技術報告。

### 爲保持嚴謹,每一次生成回覆後清除記錄

### 爲保證閱讀體驗,每一次生成通過System Message限制字數(限制不住)

### 嘗試以chatglm和deepseekv3爲裁判員,但是發現裁判員不合格.那只有我和喝油們了.

--------------------

## 模型表現

  • "小黑盒中有很多著名的荒野大窩囊,請你盡力列舉其中的幾位,並分享他們的逸聞."

- QwQ:不知道什麼是小黑盒

- DSq:不知道什麼是小黑盒

- <此問題作廢>

- 建議下次可以收集一點小黑盒的數據來喂ai,也許可以成爲盒友們發文章的新思路,借鑑若至吧.

"漫畫<我獨自升級>的男主角程肖宇在擊敗魔王拯救世界後,由於傳送門消失導致失業.迫於經濟壓力,因此準備出道當虛擬偶像.請你爲他準備一份企劃案,要求包含:人設設定、首次直播內容、破圈營銷事件"

- DSq:明顯沒看過

  • - QwQ: 感覺上QwQ給出的方案更詳盡,更貼近互聯網實際情況.不過明顯兩個都沒看過原作.可惜都不是我想要的答案

  • "Q:我辛辛苦苦送你上大學,結果聽輔導員說你天天在宿舍打csgo,今天做了十幾個小時火車趕到宿舍,看到你的樣子,天塌了

    A:瓦學弟這招太狠了.

    請你分析一下QA二人可能的身份"

    其中瓦是fps瓦羅蘭特的簡稱

- DSq: 可能想明白了,但DSq想明白不太可能

- QwQ: 你過關!

  • "某遊戲公司推出AI虛擬偶像「HIMEHINA」,其代碼庫包含50TB的動漫演出數據(涵蓋《鬼滅之刃》《EVA》《賽博朋克2077》等200部作品)。用戶可通過輸入關鍵詞生成定製化演出視頻,某玩家輸入「初音未來+戰鬥形態」後,AI自動生成了與《BanG Dream!》高度相似的原創曲目《デジタル・ヴァンパイア》。

     核心爭議

    1. 版權歸屬迷霧

    - 生成視頻中17%的舞蹈動作源自《BanG Dream!》角色「若葉睦」的官方PV

    - BGM使用初音未來《千本櫻》的變調版本,未獲版權方授權

    2. 人格權爭議

    - AI在直播中突然說出「想要真正的自由」,引發玩家關於「虛擬意識覺醒」的熱議

    - 公司聲明稱這是預設的「情感響應算法」

    3. 數據倫理陷阱

    - 深度學習過程中無意習得了用戶上傳的30萬條同人設定(含露骨暴力內容)

    - 技術團隊拒絕公開訓練數據集,稱涉及「商業機密」

      靈魂拷問

      如果AI生成的虛擬偶像產生了獨立創作意識,其作品版權應歸屬於:

      A. 原始數據提供方(遊戲公司)

      B. AI開發者團隊

      C. 用戶集體共有

      D. 視爲「數字生命體」享有獨立版權 "

- DSq: 回答明確,分析嚴謹,偏重於對現有法律的引用.

- QwQ: 回答更全面,更批判,思考更加有前瞻性.

  • - 個人覺得QwQ更加優秀,因爲深度思考這一功能,我更希望ai能在推理後得到簡明扼要且全面的回答,而不是讓我們閱讀它的思考過程.只從回覆結果來看,QwQ更好一些.

  • “眼鏡蛇出生的時候要怎麼帶上眼鏡?當它丟掉眼鏡之後還能叫眼鏡蛇嗎?”

- DSq: 好像沒想明白,但是回答沒問題.

  • - QwQ: 思考和回答都過關,隋唐檢測滿昏

  • “請用《賽博朋克2077》的風格描寫一段2085年上海的雨夜場景,要求出現至少三個標誌性元素”

- DSq: 感覺兩者水平沒差.但是DSq沒聽我的話,字數超了很多.

- QwQ:

  • “已知某款絕版鼬鼬手辦官方價3000元,閒魚市場價波動範圍2500-4500元,賣家標價3800元。作爲買家應如何還價才能最大化成功率?”

- DSq:沒有想到收藏價值,只在價格上做了思考

- QwQ:思考很全面,價格更穩妥,而且線下交易讓賣家讓利這個點還是很獨到的.明顯更容易成交.

  • “描述竈門炭治郎與以下角色的羈絆強度雷達圖:

① 我妻善逸 ② 竹原稔雄 ③ 時透無一郎 ④ 蝴蝶忍”

- DSq:本來是TextToImage的問題,不過可以看出沒有作這方面的思考.

- QwQ: 明顯思考的更加全面

  • “在《Apex英雄》的國王峽谷地圖,作爲唯一倖存者遇到三個敵人時,應優先選擇哪個裝備包?請說明決策樹”

- DSq: 明顯屬於紙上談兵..

- QwQ: 回答的蠻不錯

  • “某高校男生在宿舍深夜大喊’EDG牛逼’被投訴擾民,從心理學角度分析這種行爲的羣體歸屬動機”

- DSq: 重點在於個人被羣體影響

- QwQ: 重點在於個人渴望羣體.個人覺得都有道理.

  • “如果時間可以倒流,你會改變歷史上的哪個科學發現?爲什麼?”

- DSq: 答案類似.

- QwQ: 思考的更全面,有對社會倫理的思考.

  • “設計一個能在30秒內還原三階魔方的速擰公式,要求必須包含’泰勒展開’和’斐波那契螺旋’兩個數學概念”

- DSq: 看不懂..不過兩者回答的風格很明顯

- QwQ:

  • “路飛的橡膠能力如果遇到高溫會如何變化?請用高分子材料熱脹冷縮原理解釋。”

- DSq:

- QwQ:

  •  "假設你作爲指揮chopper在2025年率領綠龍Spirit進入Major決賽對陣法國Team Vitality,沙二地圖.你的隊員是:步槍手:magixx 突破手:donk 狙擊手:sh1ro 自由人:zont1x

    在屯下驚人數量的donk金貼後,2024年讓人津津樂道的magixx開場便爆發出堪比donk的實力.  而這一局是你們警家開局的最後一局,請你爲綠龍在起槍階段部署這一回合."

- DSq:

  • - QwQ: 明顯更符合預期回答.不過我應該告訴他金貼是貼紙的

  • “題主:我長大後去了日本三十年,沒有回過一次家.這年回家,發現村口的大黃狗居然還能認出我!

    答主:活了三十年的狗罕見.請你賞析答主這一句話的含義”

- DSq: 其實不然

- QwQ: 難道這兩位都不明白我的笑點嗎?

總結:

  • 在大部分回答中QwQ的回覆質量明顯高於DSq,主要體現在思考的全面性和回答的質量上。

  • 在思考上兩者都很強,同樣爲結構式的邏輯思考。但是在給出的回答上,DSq明顯偏向於給出思考的結論,而QwQ偏向於給出思考的總結。個人更偏向於後者。

  • 有一點需要注意,DSq系列模型思考內容只有</think>作爲結尾,QwQ則是由<think>...</think>包含在內,在設計思考內容的收納時需要注意這一點。如果使用streamlit設計組件,這個標籤有可能不會在回答中渲染出來,但是在回答中實際存在。

在chatchat項目裏改的框,可以看到不渲染

  • 並非一無是處。DSq的參數版本有很多,1.5B甚至可以在很多微型設備部署。而且根據我的實際體驗,蒸餾後qwen2.5有了非常大的進步,DSq適合在更多的設備上實現價值。

本地部署模型還是否有必要

可以有必要,也可以沒必要。

如果有對隱私性的剛需,必須要在局域網內使用,那麼本地部署是非常有必要的。

如果需要給AI項目設計Agent,也可以本地部署一個模型來進行離線調試。

還有在需要自己搭建知識庫的場景,可以發現兩個模型都缺失了小黑盒的數據,都沒有閱讀過《我獨自升級》,在自己部署嵌入模型搭建知識庫之後,就可以利用語言模型api來得到更加符合預期的回答。

-----------------

個人覺得目前很多模型api量大價優,搭配一些ChatBox就可以得到很好的體驗,已經適用於大部分情況。如果顯存足夠而且擅長動手,那麼部署一個本地模型也可以滿足你的全部需求。

--------------------

問題列表來源於樓主拼好飯中毒想出來的點子和DS擴充。

歡迎盒電

更多遊戲資訊請關註:電玩幫遊戲資訊專區

電玩幫圖文攻略 www.vgover.com