中国AI王炸！国产模型打败GPT-4o，训练成本仅600万！

本周，AI大模型领域又迎来了新王，杭州公司幻方量化旗下推出DeepSeek的新版本DeepSeek-V3，首发上线即完全开源，数学和代码能力直接超越谷歌Claude 3.5 Sonnet和OpenAI的GPT-4o，同时DeepSeek-V3训练成本约为557.6万美元，远低于其他大语言模型！

在本次国产大模型出圈前，DeepSeek（深度求索）在业界内就已经非常知名了，研究团队在NeurIPS、ICML、ACL等顶会发表了多篇论文，本次的DeepSeek-V3依然采用MoE混合专家模型，参数量达到685B，模型完全开源，DeepSeek团队用一篇 53 页的论文详细披露了模型的训练细节，包括数据预处理、模型架构、优化方法等，展现了极高的透明度。

DeepSeek-V3总参数量极大，但是每次推理只激活 37B 参数，显著降低计算成本，直观地从成本对比，假设GPU的租用价格为2美元/每GPU小时，训练671B的DeepSeek V3的成本仅有557.6万美元（约合4070万人民币），与此同时如果要训练入门版的llama-2-7b就需要76万美元；DeepSeek-V3 的训练也仅用了 280 万个 GPU 小时，远低于同类模型，比如 Llama 3 405B 的 3080 万个 GPU 小时。

DeepSeek-V3 的综合能力极为强悍，目前DeepSeek-V3 的性能与 GPT-4o、Claude 3.5 Sonnet 等顶级模型相当，在数学代码等领域能力更强，而价格仅为 Claude 3.5 Sonnet 的 9%，性价比极高！OpenAI的创始成员Karpathy对 DeepSeek-V3 给予了高度评价，“以后大家可以在有限算力预算上进行模型预训练！”

目前，DeepSeek-V3的代码和细节完全开源，全球网友也开始对DeepSeek-V3进行测试，比如有开发者整活将 8 个 M4 Mac mini 堆叠在一起成功运行 DeepSeek-V3！

一位开发者表示，DeepSeek-V3 无需额外解释就能准确理解任务，这种感觉“让人毛骨悚然”，仿佛“机器里真的住着一个幽灵”。

还一位开发者利用 DeepSeek-V3 快速创建了一个用 AI 公司 logo 制作的小行星游戏，整个过程几分钟就完成了，DeepSeek-V3绝对是目前的王者！

Stability AI 前 CEO 对 DeepSeek-V3 评价，以每秒 60 个 token 的速度全天候运行 DeepSeek-V3（人类的平均阅读速度约为每秒 12 个 token），每天仅需要 2 美元，这样的成本优势足以让 DeepSeek-V3 击败其他的大模型！

大家现在可以在DeepSeek官网进行体验测试。

官网：deepseek.com
HuggingFace：huggingface.co/DeepSeek-ai/DeepSeek-V3-Base/tree/main
Github：deepseek-ai/DeepSeek-V3

往期：

聊天机器人——ChatGPT全网爆红，马斯克惊叹夸赞！
聊天机器人——ChatGPT小白注册教程，勿被电商割韭菜！
ChatGPT移动端——使用教程，5分钟注册iOS账号！
微软——解散元宇宙，900亿投资压注ChatGPT！
OpenAI王炸官宣——文生视频模型Sora上线！
OpenAI新模型：Sora会冲击影视行业吗？技术解读
OpenAI新模型：Sora会颠覆游戏行业吗？技术解读
OpenAI估值：5700亿，仅次于字节和SpaceX！
OpenAI王炸：仅需15秒音频，即可克隆任何声音！
OpenAI：正式发布Sora，200美元月费满血版！

#gd的ai&游戏杂谈#

#ai人工智能#

更多游戏资讯请关注：电玩帮游戏资讯专区

电玩帮图文攻略 www.vgover.com

中国AI王炸！国产模型打败GPT-4o，训练成本仅600万！

相关资讯 更多

热点资讯

热门游戏

相关资讯更多