本周,AI大模型领域又迎来了新王,杭州公司幻方量化旗下推出DeepSeek的新版本DeepSeek-V3,首发上线即完全开源,数学和代码能力直接超越谷歌Claude 3.5 Sonnet和OpenAI的GPT-4o,同时DeepSeek-V3训练成本约为557.6万美元,远低于其他大语言模型!
在本次国产大模型出圈前,DeepSeek(深度求索)在业界内就已经非常知名了,研究团队在NeurIPS、ICML、ACL等顶会发表了多篇论文,本次的DeepSeek-V3依然采用MoE混合专家模型,参数量达到685B,模型完全开源,DeepSeek团队用一篇 53 页的论文详细披露了模型的训练细节,包括数据预处理、模型架构、优化方法等,展现了极高的透明度。
DeepSeek-V3总参数量极大,但是每次推理只激活 37B 参数,显著降低计算成本,直观地从成本对比,假设GPU的租用价格为2美元/每GPU小时,训练671B的DeepSeek V3的成本仅有557.6万美元(约合4070万人民币),与此同时如果要训练入门版的llama-2-7b就需要76万美元;DeepSeek-V3 的训练也仅用了 280 万个 GPU 小时,远低于同类模型,比如 Llama 3 405B 的 3080 万个 GPU 小时。
DeepSeek-V3 的综合能力极为强悍,目前DeepSeek-V3 的性能与 GPT-4o、Claude 3.5 Sonnet 等顶级模型相当,在数学代码等领域能力更强,而价格仅为 Claude 3.5 Sonnet 的 9%,性价比极高!OpenAI的创始成员Karpathy对 DeepSeek-V3 给予了高度评价,“以后大家可以在有限算力预算上进行模型预训练!”
目前,DeepSeek-V3的代码和细节完全开源,全球网友也开始对DeepSeek-V3进行测试,比如有开发者整活将 8 个 M4 Mac mini 堆叠在一起成功运行 DeepSeek-V3!
一位开发者表示,DeepSeek-V3 无需额外解释就能准确理解任务,这种感觉“让人毛骨悚然”,仿佛“机器里真的住着一个幽灵”。
还一位开发者利用 DeepSeek-V3 快速创建了一个用 AI 公司 logo 制作的小行星游戏,整个过程几分钟就完成了,DeepSeek-V3绝对是目前的王者!
Stability AI 前 CEO 对 DeepSeek-V3 评价,以每秒 60 个 token 的速度全天候运行 DeepSeek-V3(人类的平均阅读速度约为每秒 12 个 token),每天仅需要 2 美元,这样的成本优势足以让 DeepSeek-V3 击败其他的大模型!
大家现在可以在DeepSeek官网进行体验测试。
官网:deepseek.com
HuggingFace:huggingface.co/DeepSeek-ai/DeepSeek-V3-Base/tree/main
Github:deepseek-ai/DeepSeek-V3
往期:
聊天机器人——ChatGPT全网爆红,马斯克惊叹夸赞!
聊天机器人——ChatGPT小白注册教程,勿被电商割韭菜!
ChatGPT移动端——使用教程,5分钟注册iOS账号!
OpenAI王炸官宣——文生视频模型Sora上线!
OpenAI新模型:Sora会冲击影视行业吗?技术解读
OpenAI新模型:Sora会颠覆游戏行业吗?技术解读
OpenAI估值:5700亿,仅次于字节和SpaceX!
OpenAI王炸:仅需15秒音频,即可克隆任何声音!
OpenAI:正式发布Sora,200美元月费满血版!
更多游戏资讯请关注:电玩帮游戏资讯专区
电玩帮图文攻略 www.vgover.com