2月7日,国产大模型DeepSeek旗下的DeepSeek-V3大模型,在GitHub上的Star数量达到了78.5K(7.85万),正式超过了OpenAI旗下最热门的项目,成为Github上最受欢迎的大模型,这也是继DeepSeek登顶苹果商店免费应用榜单后的有一个里程碑!
与此同时,DeepSeek项目的星数还在以惊人的速度持续增长,最新的DeepSeek-R1模型Star数也达到了6.66万!这次登顶的DeepSeek-V3模型在去年12月26日正式开源,采用MoE混合专家架构,包含671B(6710亿)参数,训练成本仅为同类闭源模型的 1/20。
根据DS的技术报告,DeepSeek-V3的预训练过程使用H800 GPU仅花费了 266.4 万小时,加上上下文扩展与后训练的总训练使用H800 GPU花费 278.8 万小时,训练成本约为557.6万美元,作为对比,Llama 3 的训练预算约为 3930 万 H100 GPU小时,DeepSeek-V3 在训练效率和成本控制方面优势非常明显!
OpenAI其实自从GPT-3开始就不再开源,目前最热门的开源项目包括 openai-cookbook(6.16 万) 和 Whisper(7.58 万),而同属开源大模型的 Llama 系列最高星数达到了 5.75 万,阿里云的 Qwen2.5 有 1.49 万 Star,零一万物的 Yi 有 7800 Star,DeepSeek-V3和R1目前也成为全球开源社区最受欢迎的大模型!
此外,AMD率先加入 DeepSeek-R1 的阵营,早早在官网上宣布将 DeepSeek 集成到 Instinct MI300X GPU 上,微软、英伟达、亚马逊、Perplexity 等主流科技公司,也纷纷宣布在自家平台上线最新的 DeepSeek-R1,国内华为云、阿里云等也快速跟进助力DeepSeek!
更多游戏资讯请关注:电玩帮游戏资讯专区
电玩帮图文攻略 www.vgover.com