王炸！B站UP稚晖君，发布首个通用具身基座大模型！

2025年3月10日，B站知名科技UP主、智元机器人创始人稚晖君，正式发布了全球首个通用具身基座模型——智元启元大模型（GO-1），开创性地提出Vision-Language-Latent-Action架构，将大模型部署到智元机器人中，降低具身智能门槛！

稚晖君本名彭志辉，1993年出生于江西吉安，2018年研究生毕业于电子科技大学信息与通信工程学院，同年加入OPPO研究院AI实验室，2020年以华为“天才少年计划”最高档年薪201万元加入华为，从事昇腾AI芯片与算法研发，期间因自制自动驾驶自行车、机械臂等硬核项目走红，B站粉丝超过250万。

2022年，稚晖君离职创业，并在次年创立了智元机器人（AgiBot），担任CTO，专注具身智能与人形机器人研发。智元机器人产品线已经推出工业级“远征”系列、消费级“灵犀”系列和服务级“Genie”系列机器人，覆盖家庭服务、工业制造等场景。

2024年12月，稚晖君启动商用量产，今年1月份智元第1000台机器人下线，目标2025-2026年实现工业场景规模化落地。今天，智元机器人发布了全球首个通用具身基座大模型——智元启元大模型（GO-1），整合视觉、语言、动作等多模态输入。

智元启元大模型隶属服务级“Genie”系列机器人，GO-1全程GenieOperator-1，核心创新在于提出了Vision-Language-Latent-Action（ViLLA）架构，主要由多模态大模型（VLM）与混合专家系统（MoE）协同工作，VLM主要依赖海量互联网图文数据训练，具备通用场景感知和自然语言理解能力，可解析用户指令理解环境语义，支持视觉图像、力觉信号和语音指令的多模态输入。

MoE混合专家系统我已经在小黑盒介绍了很多次，可以参考之前DeepSeek系列科普文章，稚晖君的智元启元大模型优势在于可以通过跨本体和人类操作视频数据，预测隐式动作标记（Latent Action Tokens），将复杂任务分解为可执行的规划链（Chain of Planning）。

例如“倒水”任务被拆解为“定位杯子→倾斜容器→控制流速”等步骤，接下来动作专家（Action Expert）来输出执行指令，给机器人的具体动作指明方向。相比于传统模型，智元启元大模型在倒水（Pour Water）、清理桌面（Table Bussing）、补充饮料（Restock Beverage）等任务中，GO-1平均成功率达78%，较行业最优模型提升32%。

此外稚晖君还推出了全球最大的机器人高质量数据集AgiBot World，包含100万条轨迹、217个任务、五大场景（家居、工业、餐饮等）的真机示教数据，GO-1在零样本或仅需1000条数据的情况下即可适应新任务！稚晖君计划在2025年突破G3阶段（单一任务成功率接近人类），机器人可以应用在大量的工业场景，替代产线分拣、设备维护这些重复性劳动，未来还会继续推出各种养老陪护机器人，响应老龄化的需求！