30美元复刻DeepSeek?最新开源AI项目TinyZero横空出世

伯克利团队以30美元复制DeepSeek AI的核心功能,推出开源项目TinyZero,证明AI研究不再是高成本领域,降低了进入门槛,推动了更广泛的技术应用。

人工智能研究通常是巨头企业的专属游戏,这些公司拥有深厚的财力支持。然而,伯克利加州大学的一支研究团队却打破了这一局面。他们仅以30美元复制了DeepSeek R1-Zero的核心功能。他们的项目名为TinyZero,证明先进的人工智能推理模型并不需要耗费巨额资金。更重要的是,人工智能研究比以往任何时候都更容易接近。

在Jiayi Pan的带领下,该团队旨在通过强化学习(Reinforcement Learning,RL)重新构建DeepSeek的推理模型。与依赖昂贵的云服务或巨大的计算能力不同,他们使用了一个基本的语言模型、一个简单的提示和一个奖励系统来训练TinyZero。

Pan在X平台上分享了他的兴奋之情,表示:“你可以亲身经历那一刻,只需不到30美元。”他还将TinyZero描述为第一个开源的推理模型复现项目,强调了它如何学会验证和完善自己的答案。

如何开发TinyZero

为了测试模型,研究人员选择了一个名为Countdown的游戏,玩家需要通过基本的数学运算来达到目标数字。尽管TinyZero最初是随机猜测,但随着时间的推移,它学会了验证自己的答案、寻找更好的解决方案并相应地进行调整。

他们尝试了不同规模的模型,从50亿参数到700亿参数。结果是什么?参数规模较小的模型(50亿参数)只是随机猜测答案然后停止。而参数规模较大的模型(150亿参数及以上)则学会了自我验证、完善解决方案并显著提高了准确率。

TinyZero真正引人注目的地方在于,与传统的人工智能模型相比,它的成本低得惊人。看看这些对比:

* OpenAI的API:每百万tokens收费15美元
* DeepSeek-R1:每百万tokens收费0.55美元
* TinyZero的总成本:一次性训练成本30美元

这意味着任何人(不仅仅是大型科技公司)都可以在无需烧钱到破产的情况下实验人工智能推理模型。

可用性

TinyZero是开源的,并且可以在GitHub上找到,因此任何人都可以尝试改进它。尽管它目前仅在Countdown游戏中进行了测试,但潘佳乂希望这个项目能够使强化学习研究更加普及。

当然,这仍然是一个早期阶段。“当然,其中一个缺点是,它仅在Countdown任务中得到了验证,但尚未在一般推理领域中得到验证。”Pan承认。但即便如此,其影响仍然是显而易见的:人工智能的发展并不一定要昂贵。有了像TinyZero这样的项目,低成本、开源的人工智能或许将成为未来的趋势。

DeepSeek是如何训练的

DeepSeek R1通过创新的多阶段强化学习(RL)训练方法,采用组相关策略优化 (GRPO),在复杂推理任务中表现不俗,甚至有望超越OpenAI的o1模型。

DeepSeek AI发布了其最新的模型DeepSeek-R1,这是一款在复杂推理任务中与OpenAI的o1模型相媲美的开源模型。它采用了一种名为组相关策略优化(GRPO)的强化学习算法,并通过多阶段训练方法不断优化。这一新算法旨在提升大型语言模型(LLM)的推理能力,尤其在数学推理等领域表现尤为突出。

GRPO的核心概念是通过取消对价值函数模型的依赖来简化训练过程。这一创新不仅减少了内存消耗和计算开销,还能通过组内得分来估算基准,从而优化模型性能。与传统的Proximal Policy Optimization(PPO)不同,GRPO不依赖单独的价值函数,而是使用多个输出的平均奖励作为基准进行优化。通过这种方式,模型可以更自然地处理多输出的情况,如同在处理单一输入时一样。

DeepSeek团队在构建DeepSeek R1的过程中,首先基于DeepSeek V3进行强化学习实验,尝试应用GRPO对无监督推理文本进行补全。使用规则奖励模型,重点评估格式、数学和编程等领域的表现。比如,通过奖励准确性来评估是否得出了正确的答案,或者是否解决了LeetCode问题;通过奖励格式来确保模型在思考过程中,能将其思维过程清晰地表达出来。

这些措施显著提升了DeepSeek R1在AIME 2024的表现,Pass@1得分从15.6%跃升至71.0%,接近OpenAI o1-0912的水平。随着问题的解答中token的数量增加,模型表现出自然地学会了在更长时间内思考并生成更多tokens来完成任务。

然而,这种进步并非没有代价。早期的模型输出可读性较差,语言混杂,但通过多阶段的训练方法,这一问题得到了解决。

在训练过程中,DeepSeek R1经历了四个关键阶段,以确保模型的稳定性和有效性。首先,团队进行了监督微调(SFT),以解决强化学习冷启动阶段的不稳定问题,并使用了包含大量链式思维(CoT)的数据集。接下来,模型在代码和数学等推理任务中应用GRPO,加入了“语言一致性”的奖励,以确保模型语言风格的一致性。第三阶段,通过拒绝采样(RS)生成大量合成数据集,重点提高模型在写作和角色扮演等通用任务中的能力。最后,在第四阶段,GRPO再次被应用,以结合规则和结果奖励模型,进一步优化模型的有用性和无害性,从而最终形成了DeepSeek R1。

其中,DeepSeek团队有几项惊人的选择和发现。与许多模型不同,DeepSeek并没有使用蒙特卡洛树搜索(MCTS)或过程奖励模型(PRM)。而且,通过在应用GRPO之前进行微调,训练过程变得更快、更稳定。特别是,基于准确性和格式的规则奖励,往往比复杂的奖励模型更加有效。

通过这一系列创新的训练步骤,DeepSeek R1不仅在推理能力上取得了显著进展,还能在各种任务中展现出更高的实用性和一致性。

更多游戏资讯请关注:电玩帮游戏资讯专区

电玩帮图文攻略 www.vgover.com