2月7日,國產大模型DeepSeek旗下的DeepSeek-V3大模型,在GitHub上的Star數量達到了78.5K(7.85萬),正式超過了OpenAI旗下最熱門的項目,成爲Github上最受歡迎的大模型,這也是繼DeepSeek登頂蘋果商店免費應用榜單後的有一個里程碑!
與此同時,DeepSeek項目的星數還在以驚人的速度持續增長,最新的DeepSeek-R1模型Star數也達到了6.66萬!這次登頂的DeepSeek-V3模型在去年12月26日正式開源,採用MoE混合專家架構,包含671B(6710億)參數,訓練成本僅爲同類閉源模型的 1/20。
根據DS的技術報告,DeepSeek-V3的預訓練過程使用H800 GPU僅花費了 266.4 萬小時,加上上下文擴展與後訓練的總訓練使用H800 GPU花費 278.8 萬小時,訓練成本約爲557.6萬美元,作爲對比,Llama 3 的訓練預算約爲 3930 萬 H100 GPU小時,DeepSeek-V3 在訓練效率和成本控制方面優勢非常明顯!
OpenAI其實自從GPT-3開始就不再開源,目前最熱門的開源項目包括 openai-cookbook(6.16 萬) 和 Whisper(7.58 萬),而同屬開源大模型的 Llama 系列最高星數達到了 5.75 萬,阿里雲的 Qwen2.5 有 1.49 萬 Star,零一萬物的 Yi 有 7800 Star,DeepSeek-V3和R1目前也成爲全球開源社區最受歡迎的大模型!
此外,AMD率先加入 DeepSeek-R1 的陣營,早早在官網上宣佈將 DeepSeek 集成到 Instinct MI300X GPU 上,微軟、英偉達、亞馬遜、Perplexity 等主流科技公司,也紛紛宣佈在自家平臺上線最新的 DeepSeek-R1,國內華爲雲、阿里雲等也快速跟進助力DeepSeek!
更多遊戲資訊請關註:電玩幫遊戲資訊專區
電玩幫圖文攻略 www.vgover.com