王炸！B站UP稚暉君，發佈首個通用具身基座大模型！

2025年3月10日，B站知名科技UP主、智元機器人創始人稚暉君，正式發佈了全球首個通用具身基座模型——智元啓元大模型（GO-1），開創性地提出Vision-Language-Latent-Action架構，將大模型部署到智元機器人中，降低具身智能門檻！

稚暉君本名彭志輝，1993年出生於江西吉安，2018年研究生畢業於電子科技大學信息與通信工程學院，同年加入OPPO研究院AI實驗室，2020年以華爲“天才少年計劃”最高檔年薪201萬元加入華爲，從事昇騰AI芯片與算法研發，期間因自制自動駕駛自行車、機械臂等硬核項目走紅，B站粉絲超過250萬。

2022年，稚暉君離職創業，並在次年創立了智元機器人（AgiBot），擔任CTO，專注具身智能與人形機器人研發。智元機器人產品線已經推出工業級“遠征”系列、消費級“靈犀”系列和服務級“Genie”系列機器人，覆蓋家庭服務、工業製造等場景。

2024年12月，稚暉君啓動商用量產，今年1月份智元第1000臺機器人下線，目標2025-2026年實現工業場景規模化落地。今天，智元機器人發佈了全球首個通用具身基座大模型——智元啓元大模型（GO-1），整合視覺、語言、動作等多模態輸入。

智元啓元大模型隸屬服務級“Genie”系列機器人，GO-1全程GenieOperator-1，核心創新在於提出了Vision-Language-Latent-Action（ViLLA）架構，主要由多模態大模型（VLM）與混合專家系統（MoE）協同工作，VLM主要依賴海量互聯網圖文數據訓練，具備通用場景感知和自然語言理解能力，可解析用戶指令理解環境語義，支持視覺圖像、力覺信號和語音指令的多模態輸入。

MoE混合專家系統我已經在小黑盒介紹了很多次，可以參考之前DeepSeek系列科普文章，稚暉君的智元啓元大模型優勢在於可以通過跨本體和人類操作視頻數據，預測隱式動作標記（Latent Action Tokens），將複雜任務分解爲可執行的規劃鏈（Chain of Planning）。

例如“倒水”任務被拆解爲“定位杯子→傾斜容器→控制流速”等步驟，接下來動作專家（Action Expert）來輸出執行指令，給機器人的具體動作指明方向。相比於傳統模型，智元啓元大模型在倒水（Pour Water）、清理桌面（Table Bussing）、補充飲料（Restock Beverage）等任務中，GO-1平均成功率達78%，較行業最優模型提升32%。

此外稚暉君還推出了全球最大的機器人高質量數據集AgiBot World，包含100萬條軌跡、217個任務、五大場景（家居、工業、餐飲等）的真機示教數據，GO-1在零樣本或僅需1000條數據的情況下即可適應新任務！稚暉君計劃在2025年突破G3階段（單一任務成功率接近人類），機器人可以應用在大量的工業場景，替代產線分揀、設備維護這些重複性勞動，未來還會繼續推出各種養老陪護機器人，響應老齡化的需求！