中国AI王炸!国产模型打败GPT-4o,训练成本仅600万!

本周,AI大模型领域又迎来了新王,杭州公司幻方量化旗下推出DeepSeek的新版本DeepSeek-V3,首发上线即完全开源,数学和代码能力直接超越谷歌Claude 3.5 Sonnet和OpenAI的GPT-4o,同时DeepSeek-V3训练成本约为557.6万美元,远低于其他大语言模型!

在本次国产大模型出圈前,DeepSeek(深度求索)在业界内就已经非常知名了,研究团队在NeurIPS、ICML、ACL等顶会发表了多篇论文,本次的DeepSeek-V3依然采用MoE混合专家模型,参数量达到685B,模型完全开源,DeepSeek团队用一篇 53 页的论文详细披露了模型的训练细节,包括数据预处理、模型架构、优化方法等,展现了极高的透明度。

DeepSeek-V3总参数量极大,但是每次推理只激活 37B 参数,显著降低计算成本,直观地从成本对比,假设GPU的租用价格为2美元/每GPU小时,训练671B的DeepSeek V3的成本仅有557.6万美元(约合4070万人民币),与此同时如果要训练入门版的llama-2-7b就需要76万美元;DeepSeek-V3 的训练也仅用了 280 万个 GPU 小时,远低于同类模型,比如 Llama 3 405B 的 3080 万个 GPU 小时。

DeepSeek-V3 的综合能力极为强悍,目前DeepSeek-V3 的性能与 GPT-4o、Claude 3.5 Sonnet 等顶级模型相当,在数学代码等领域能力更强,而价格仅为 Claude 3.5 Sonnet 的 9%,性价比极高!OpenAI的创始成员Karpathy对 DeepSeek-V3 给予了高度评价,“以后大家可以在有限算力预算上进行模型预训练!”

目前,DeepSeek-V3的代码和细节完全开源,全球网友也开始对DeepSeek-V3进行测试,比如有开发者整活将 8 个 M4 Mac mini 堆叠在一起成功运行 DeepSeek-V3!

一位开发者表示,DeepSeek-V3 无需额外解释就能准确理解任务,这种感觉“让人毛骨悚然”,仿佛“机器里真的住着一个幽灵”。

还一位开发者利用 DeepSeek-V3 快速创建了一个用 AI 公司 logo 制作的小行星游戏,整个过程几分钟就完成了,DeepSeek-V3绝对是目前的王者!

Stability AI 前 CEO 对 DeepSeek-V3 评价,以每秒 60 个 token 的速度全天候运行 DeepSeek-V3(人类的平均阅读速度约为每秒 12 个 token),每天仅需要 2 美元,这样的成本优势足以让 DeepSeek-V3 击败其他的大模型!

大家现在可以在DeepSeek官网进行体验测试。

官网:deepseek.com

HuggingFace:huggingface.co/DeepSeek-ai/DeepSeek-V3-Base/tree/main

Github:deepseek-ai/DeepSeek-V3

往期:

聊天机器人——ChatGPT全网爆红,马斯克惊叹夸赞!

聊天机器人——ChatGPT小白注册教程,勿被电商割韭菜!

ChatGPT移动端——使用教程,5分钟注册iOS账号!

微软——解散元宇宙,900亿投资压注ChatGPT!

OpenAI王炸官宣——文生视频模型Sora上线!

OpenAI新模型:Sora会冲击影视行业吗?技术解读

OpenAI新模型:Sora会颠覆游戏行业吗?技术解读

OpenAI估值:5700亿,仅次于字节和SpaceX!

OpenAI王炸:仅需15秒音频,即可克隆任何声音!

OpenAI:正式发布Sora,200美元月费满血版!

#gd的ai&游戏杂谈#

#ai人工智能#

更多游戏资讯请关注:电玩帮游戏资讯专区

电玩帮图文攻略 www.vgover.com