中國AI王炸！國產模型打敗GPT-4o，訓練成本僅600萬！

本週，AI大模型領域又迎來了新王，杭州公司幻方量化旗下推出DeepSeek的新版本DeepSeek-V3，首發上線即完全開源，數學和代碼能力直接超越谷歌Claude 3.5 Sonnet和OpenAI的GPT-4o，同時DeepSeek-V3訓練成本約爲557.6萬美元，遠低於其他大語言模型！

在本次國產大模型出圈前，DeepSeek（深度求索）在業界內就已經非常知名了，研究團隊在NeurIPS、ICML、ACL等頂會發表了多篇論文，本次的DeepSeek-V3依然採用MoE混合專家模型，參數量達到685B，模型完全開源，DeepSeek團隊用一篇 53 頁的論文詳細披露了模型的訓練細節，包括數據預處理、模型架構、優化方法等，展現了極高的透明度。

DeepSeek-V3總參數量極大，但是每次推理只激活 37B 參數，顯著降低計算成本，直觀地從成本對比，假設GPU的租用價格爲2美元/每GPU小時，訓練671B的DeepSeek V3的成本僅有557.6萬美元（約合4070萬人民幣），與此同時如果要訓練入門版的llama-2-7b就需要76萬美元；DeepSeek-V3 的訓練也僅用了 280 萬個 GPU 小時，遠低於同類模型，比如 Llama 3 405B 的 3080 萬個 GPU 小時。

DeepSeek-V3 的綜合能力極爲強悍，目前DeepSeek-V3 的性能與 GPT-4o、Claude 3.5 Sonnet 等頂級模型相當，在數學代碼等領域能力更強，而價格僅爲 Claude 3.5 Sonnet 的 9%，性價比極高！OpenAI的創始成員Karpathy對 DeepSeek-V3 給予了高度評價，“以後大家可以在有限算力預算上進行模型預訓練！”

目前，DeepSeek-V3的代碼和細節完全開源，全球網友也開始對DeepSeek-V3進行測試，比如有開發者整活將 8 個 M4 Mac mini 堆疊在一起成功運行 DeepSeek-V3！

一位開發者表示，DeepSeek-V3 無需額外解釋就能準確理解任務，這種感覺“讓人毛骨悚然”，彷彿“機器裏真的住着一個幽靈”。

還一位開發者利用 DeepSeek-V3 快速創建了一個用 AI 公司 logo 製作的小行星遊戲，整個過程幾分鐘就完成了，DeepSeek-V3絕對是目前的王者！

Stability AI 前 CEO 對 DeepSeek-V3 評價，以每秒 60 個 token 的速度全天候運行 DeepSeek-V3（人類的平均閱讀速度約爲每秒 12 個 token），每天僅需要 2 美元，這樣的成本優勢足以讓 DeepSeek-V3 擊敗其他的大模型！

大家現在可以在DeepSeek官網進行體驗測試。

官網：deepseek.com
HuggingFace：huggingface.co/DeepSeek-ai/DeepSeek-V3-Base/tree/main
Github：deepseek-ai/DeepSeek-V3

往期：

聊天機器人——ChatGPT全網爆紅，馬斯克驚歎誇讚！
聊天機器人——ChatGPT小白註冊教程，勿被電商割韭菜！
ChatGPT移動端——使用教程，5分鐘註冊iOS賬號！
微軟——解散元宇宙，900億投資壓注ChatGPT！
OpenAI王炸官宣——文生視頻模型Sora上線！
OpenAI新模型：Sora會衝擊影視行業嗎？技術解讀
OpenAI新模型：Sora會顛覆遊戲行業嗎？技術解讀
OpenAI估值：5700億，僅次於字節和SpaceX！
OpenAI王炸：僅需15秒音頻，即可克隆任何聲音！
OpenAI：正式發佈Sora，200美元月費滿血版！