伯克利團隊以30美元複製DeepSeek AI的核心功能,推出開源項目TinyZero,證明AI研究不再是高成本領域,降低了進入門檻,推動了更廣泛的技術應用。
人工智能研究通常是巨頭企業的專屬遊戲,這些公司擁有深厚的財力支持。然而,伯克利加州大學的一支研究團隊卻打破了這一局面。他們僅以30美元複製了DeepSeek R1-Zero的核心功能。他們的項目名爲TinyZero,證明先進的人工智能推理模型並不需要耗費鉅額資金。更重要的是,人工智能研究比以往任何時候都更容易接近。
在Jiayi Pan的帶領下,該團隊旨在通過強化學習(Reinforcement Learning,RL)重新構建DeepSeek的推理模型。與依賴昂貴的雲服務或巨大的計算能力不同,他們使用了一個基本的語言模型、一個簡單的提示和一個獎勵系統來訓練TinyZero。
Pan在X平臺上分享了他的興奮之情,表示:“你可以親身經歷那一刻,只需不到30美元。”他還將TinyZero描述爲第一個開源的推理模型復現項目,強調了它如何學會驗證和完善自己的答案。
如何開發TinyZero
爲了測試模型,研究人員選擇了一個名爲Countdown的遊戲,玩家需要通過基本的數學運算來達到目標數字。儘管TinyZero最初是隨機猜測,但隨着時間的推移,它學會了驗證自己的答案、尋找更好的解決方案並相應地進行調整。
他們嘗試了不同規模的模型,從50億參數到700億參數。結果是什麼?參數規模較小的模型(50億參數)只是隨機猜測答案然後停止。而參數規模較大的模型(150億參數及以上)則學會了自我驗證、完善解決方案並顯著提高了準確率。
TinyZero真正引人注目的地方在於,與傳統的人工智能模型相比,它的成本低得驚人。看看這些對比:
* OpenAI的API:每百萬tokens收費15美元
* DeepSeek-R1:每百萬tokens收費0.55美元
* TinyZero的總成本:一次性訓練成本30美元
這意味着任何人(不僅僅是大型科技公司)都可以在無需燒錢到破產的情況下實驗人工智能推理模型。
可用性
TinyZero是開源的,並且可以在GitHub上找到,因此任何人都可以嘗試改進它。儘管它目前僅在Countdown遊戲中進行了測試,但潘佳乂希望這個項目能夠使強化學習研究更加普及。
當然,這仍然是一個早期階段。“當然,其中一個缺點是,它僅在Countdown任務中得到了驗證,但尚未在一般推理領域中得到驗證。”Pan承認。但即便如此,其影響仍然是顯而易見的:人工智能的發展並不一定要昂貴。有了像TinyZero這樣的項目,低成本、開源的人工智能或許將成爲未來的趨勢。
DeepSeek是如何訓練的
DeepSeek R1通過創新的多階段強化學習(RL)訓練方法,採用組相關策略優化 (GRPO),在複雜推理任務中表現不俗,甚至有望超越OpenAI的o1模型。
DeepSeek AI發佈了其最新的模型DeepSeek-R1,這是一款在複雜推理任務中與OpenAI的o1模型相媲美的開源模型。它採用了一種名爲組相關策略優化(GRPO)的強化學習算法,並通過多階段訓練方法不斷優化。這一新算法旨在提升大型語言模型(LLM)的推理能力,尤其在數學推理等領域表現尤爲突出。
GRPO的核心概念是通過取消對價值函數模型的依賴來簡化訓練過程。這一創新不僅減少了內存消耗和計算開銷,還能通過組內得分來估算基準,從而優化模型性能。與傳統的Proximal Policy Optimization(PPO)不同,GRPO不依賴單獨的價值函數,而是使用多個輸出的平均獎勵作爲基準進行優化。通過這種方式,模型可以更自然地處理多輸出的情況,如同在處理單一輸入時一樣。
DeepSeek團隊在構建DeepSeek R1的過程中,首先基於DeepSeek V3進行強化學習實驗,嘗試應用GRPO對無監督推理文本進行補全。使用規則獎勵模型,重點評估格式、數學和編程等領域的表現。比如,通過獎勵準確性來評估是否得出了正確的答案,或者是否解決了LeetCode問題;通過獎勵格式來確保模型在思考過程中,能將其思維過程清晰地表達出來。
這些措施顯著提升了DeepSeek R1在AIME 2024的表現,Pass@1得分從15.6%躍升至71.0%,接近OpenAI o1-0912的水平。隨着問題的解答中token的數量增加,模型表現出自然地學會了在更長時間內思考並生成更多tokens來完成任務。
然而,這種進步並非沒有代價。早期的模型輸出可讀性較差,語言混雜,但通過多階段的訓練方法,這一問題得到了解決。
在訓練過程中,DeepSeek R1經歷了四個關鍵階段,以確保模型的穩定性和有效性。首先,團隊進行了監督微調(SFT),以解決強化學習冷啓動階段的不穩定問題,並使用了包含大量鏈式思維(CoT)的數據集。接下來,模型在代碼和數學等推理任務中應用GRPO,加入了“語言一致性”的獎勵,以確保模型語言風格的一致性。第三階段,通過拒絕採樣(RS)生成大量合成數據集,重點提高模型在寫作和角色扮演等通用任務中的能力。最後,在第四階段,GRPO再次被應用,以結合規則和結果獎勵模型,進一步優化模型的有用性和無害性,從而最終形成了DeepSeek R1。
其中,DeepSeek團隊有幾項驚人的選擇和發現。與許多模型不同,DeepSeek並沒有使用蒙特卡洛樹搜索(MCTS)或過程獎勵模型(PRM)。而且,通過在應用GRPO之前進行微調,訓練過程變得更快、更穩定。特別是,基於準確性和格式的規則獎勵,往往比複雜的獎勵模型更加有效。
通過這一系列創新的訓練步驟,DeepSeek R1不僅在推理能力上取得了顯著進展,還能在各種任務中展現出更高的實用性和一致性。
更多遊戲資訊請關註:電玩幫遊戲資訊專區
電玩幫圖文攻略 www.vgover.com