稚晖君搞了个“好东西”,网上的视频也能拿来训练机器人了。

上周五,稚晖君不是在微博浅浅预告了一波 “ 好东西 ” 嘛。

这不刚周一,智元机器人马上就把热乎的抬上来了。

机器人给你端茶倒水、煮咖啡。

把面包放进面包机、给烤好的面包涂抹果酱,再把面包端到你面前,整套动作一气呵成。

还能在公司当前台,充当一把迎宾。

就是吧,见多了各种人形机器人的视频之后,世超对这种程度的展示,已经见怪不怪了。

这么说吧,这个基座大模型,让困扰了人形机器人许久的数据匮乏、泛化能力差的问题,又有了更高效的解法。

大伙儿可能也知道,现阶段的人形机器人之所以看起来很拉胯,很重要的原因之一,就是缺乏高质量的数据。

而获得这些数据的成本,同样也非常高。

为了解决这个行业难题,去年底,智元机器人就已经开源了百万真机数据集 AgiBot World 。

AgiBot World 的数据都来自于智元的数据采集工厂,里面搭了不少模拟真实场景,数据采集师每天的任务,就是教机器人怎么执行某项任务。

根据官方的说法, AgiBot World 涵盖了超过 100 万条轨迹、 217 个任务和 106 个场景。但即便是这个量级的数据,对于机器人来说仍然是杯水车薪,而且,也没办法解决机器人泛化能力差的问题。

世超去翻了翻智元机器人发布的论文,简单用大白话给大伙儿介绍一下,这 ViLLA 到底牛在哪。

首先在数据上, ViLLA 架构就没那么挑。

根据官方的介绍, ViLLA 架构是由 VLM  ( 多模态大模型 ) 和 MoE  ( 混合专家 ) 组成。

传统的 VLA 架构,结合了 VLM 和端到端的特点,所以这种架构需要大量标注过的真机数据来训练,又费钱又费力,而且数据量还少。

也就是说,基于 GO-1 大模型的机器人,理论上只要 “ 看过 ” 视频,就能学会相对应的动作。

至于其中的原因,世超觉着很大概率要归功于 “ 潜在动作 ” ( Latent Actions )。

咱还是拿 VLA 作为对比, VLA ( Vision Language Action )架构,在执行任务的时候是这么个流程:输入图像和语言指令,机器人再根据这些信息,生成并执行指定动作。

举个例子,咱们让机器人( VLA 架构 )做一杯咖啡,机器人能看到咖啡机在哪,也能听得懂我要它做咖啡。

但是, VLA 架构下的机器人要直接从 “看到了咖啡机 ” “ 听懂了要做咖啡 ” ,一下子想清楚所有步骤,然后马上动手,中间没有思考的过程。

DeepMind 的 VLA 模型 RT-2

问题就在于,泡咖啡其实中间有很多小步骤,比如找到咖啡豆,打开咖啡机,按下开关,就算是人来了,都得想一下要先干嘛再干嘛。

但 ViLLA 架构,引入了两位 “ 专家 ” :隐式规划器( Latent Planner )和动作专家( Action Expert )。

这两位专家不仅能让机器人想得更多,而且能做的事情也变多了。

专有名词看不懂没关系,咱继续举例子。

假设现在输入一段视频,是一个人拿起杯子喝水。

VLM 多模态大模型会先把视频处理了,接着潜在动作模型( Latent Action Model ),会把那些复杂的视频动作,拆解成几个关键步骤,比如 “ 抓取 ” 、 “ 移动 ” 和 “ 喝水 ” 。

但光到这一步还不够,隐式规划器( Latent Planner )要继续把关键步骤进行加工,生成更详细的步骤: “ 抓取(杯子),移动(杯子到嘴边),饮用 ” 。

所以 ViLLA 架构在执行复杂任务时的表现,要比 VLA 更出色,也更能适应当下人形机器人的训练需求。

而且世超还注意到, ViLLA 架构并不依赖具体的硬件。

换句话说, VLA 架构是根据特定的机器人本体、特定场景,来生成动作信号,而 ViLLA 架构生成的是 “ 抓取 ” “ 移动 ” 这种通用动作标记,任务泛化能力更好,也更容易迁移到其他机器人平台。

给大伙儿一句话总结就是,GO-1 让机器人能从互联网的人类视频数据中学习,并且多了拆解任务的能力,提高复杂任务成功率的同时,泛化能力也变强了。

数据不愁,还不挑平台,这机器人训练起来可就顺手多了。就是不知道这个 GO-1 ,智元会不会选择继续开源。

听说,智元机器人明天还要放出个惊喜,咱们等一手好吧。

撰文:西西

编辑:江江&面线

美编:萱萱

图片、资料来源

智元机器人(B站、微博)

智元机器人, VLA 进化到 ViLLA ,智元发布首个通用具身基座大模型 GO-1

AgiBot World Colosseo : Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems

更多游戏资讯请关注:电玩帮游戏资讯专区

电玩帮图文攻略 www.vgover.com