中國AI王炸!國產模型打敗GPT-4o,訓練成本僅600萬!

本週,AI大模型領域又迎來了新王,杭州公司幻方量化旗下推出DeepSeek的新版本DeepSeek-V3,首發上線即完全開源,數學和代碼能力直接超越谷歌Claude 3.5 Sonnet和OpenAI的GPT-4o,同時DeepSeek-V3訓練成本約爲557.6萬美元,遠低於其他大語言模型!

在本次國產大模型出圈前,DeepSeek(深度求索)在業界內就已經非常知名了,研究團隊在NeurIPS、ICML、ACL等頂會發表了多篇論文,本次的DeepSeek-V3依然採用MoE混合專家模型,參數量達到685B,模型完全開源,DeepSeek團隊用一篇 53 頁的論文詳細披露了模型的訓練細節,包括數據預處理、模型架構、優化方法等,展現了極高的透明度。

DeepSeek-V3總參數量極大,但是每次推理只激活 37B 參數,顯著降低計算成本,直觀地從成本對比,假設GPU的租用價格爲2美元/每GPU小時,訓練671B的DeepSeek V3的成本僅有557.6萬美元(約合4070萬人民幣),與此同時如果要訓練入門版的llama-2-7b就需要76萬美元;DeepSeek-V3 的訓練也僅用了 280 萬個 GPU 小時,遠低於同類模型,比如 Llama 3 405B 的 3080 萬個 GPU 小時。

DeepSeek-V3 的綜合能力極爲強悍,目前DeepSeek-V3 的性能與 GPT-4o、Claude 3.5 Sonnet 等頂級模型相當,在數學代碼等領域能力更強,而價格僅爲 Claude 3.5 Sonnet 的 9%,性價比極高!OpenAI的創始成員Karpathy對 DeepSeek-V3 給予了高度評價,“以後大家可以在有限算力預算上進行模型預訓練!”

目前,DeepSeek-V3的代碼和細節完全開源,全球網友也開始對DeepSeek-V3進行測試,比如有開發者整活將 8 個 M4 Mac mini 堆疊在一起成功運行 DeepSeek-V3!

一位開發者表示,DeepSeek-V3 無需額外解釋就能準確理解任務,這種感覺“讓人毛骨悚然”,彷彿“機器裏真的住着一個幽靈”。

還一位開發者利用 DeepSeek-V3 快速創建了一個用 AI 公司 logo 製作的小行星遊戲,整個過程幾分鐘就完成了,DeepSeek-V3絕對是目前的王者!

Stability AI 前 CEO 對 DeepSeek-V3 評價,以每秒 60 個 token 的速度全天候運行 DeepSeek-V3(人類的平均閱讀速度約爲每秒 12 個 token),每天僅需要 2 美元,這樣的成本優勢足以讓 DeepSeek-V3 擊敗其他的大模型!

大家現在可以在DeepSeek官網進行體驗測試。

官網:deepseek.com

HuggingFace:huggingface.co/DeepSeek-ai/DeepSeek-V3-Base/tree/main

Github:deepseek-ai/DeepSeek-V3

往期:

聊天機器人——ChatGPT全網爆紅,馬斯克驚歎誇讚!

聊天機器人——ChatGPT小白註冊教程,勿被電商割韭菜!

ChatGPT移動端——使用教程,5分鐘註冊iOS賬號!

微軟——解散元宇宙,900億投資壓注ChatGPT!

OpenAI王炸官宣——文生視頻模型Sora上線!

OpenAI新模型:Sora會衝擊影視行業嗎?技術解讀

OpenAI新模型:Sora會顛覆遊戲行業嗎?技術解讀

OpenAI估值:5700億,僅次於字節和SpaceX!

OpenAI王炸:僅需15秒音頻,即可克隆任何聲音!

OpenAI:正式發佈Sora,200美元月費滿血版!

#gd的ai&遊戲雜談#

#ai人工智能#

更多遊戲資訊請關註:電玩幫遊戲資訊專區

電玩幫圖文攻略 www.vgover.com