智元机器人联合香港大学推出的UniVLA入选 RSS 2025 并开源! 发布时间:2025-05-14 18:01:00


导 言 

现有具身模型没有充分利用更加多样的视频数据,难以适应未训练过的新任务与新场景,通用性受限。为此,智元机器人联合香港大学提出UniVLA:一个具备跨机器人本体、场景与任务泛化能力的通用策略学习系统。它构建了以任务为中心的隐式动作空间,充分利用语言描述与视频示范进行策略学习,实现了从“看视频”、“听指令”到“动手操作”的通用控制。该成果已被机器人顶会 RSS 2025 认可,同时代码也已经开源,并成为全球顶尖机器人赛事 AgiBot World Challenge @ IROS 2025【点击文字跳转相关文章】 的baseline之一。


想象一下在不远的未来,通用机器人真正走进了日常生活。我们希望当你发出一条自然语言指令,无论是“帮我给猫喂食”,还是“帮我关掉台灯”,它都能够理解你的意图,并准确地完成动作——不依赖预定义的任务模板,也不受限于曾经训练过的数据分布。


然而,现有的机器人系统往往依赖人工标注的数据与固定的动作空间,面对那些未被明确训练过的任务或非典型场景,它们常常会因为“未见过”“无定义”而选择拒绝执行,严重限制了通用性的发挥。有没有一种能够从更广泛的数据来源,如从互联网上的人类视频中学习动作的方法,并实现多种场景、任务的真正通用和泛化呢?


最近,智元机器人联合香港大学基于此提出了全新框架——UniVLA,一个跨本体、跨场景、跨任务的通用策略学习系统,就像为机器人安装了“跨界大脑”,实现了从“看视频”、“听指令”到“动手操作”的通用控制。


图片

UniVLA:跨本体、跨场景、跨任务的通用策略


🔹 论文地址:

https://www.arxiv.org/abs/2505.06111

🔹 开源代码

https://github.com/OpenDriveLab/UniVLA


以往的通用模型如 RT-2、OpenVLA 虽已初具通用模型之势,但依然存在诸多瓶颈:


  • 训练数据源单一:训练时只使用大量人工采集的真机示范数据,没有充分利用更加多样的视频数据。

  • 缺乏通用性和跨平台适配能力:换个机器人,动作空间就全得重来。

  • 推理慢且精度不稳:自回归预测方式对错误累积敏感,执行效率不高。


UniVLA 选择了一条更具前瞻性的路径:不再直接预测每一步动作,而是构建一个任务中心的隐式动作空间,在这个“中间表征”上统一训练与泛化策略,不仅可以有效解决上述瓶颈,同时也能够以更低的计算资源消耗实现更优的效果。


UniVLA的核心创新在于构建了以任务为中心的隐式动作空间(task-centric latent action space),让模型可以从海量无标签视频中学习任务相关且高效泛化的动作表示,只在人类视频数据(Ego4D)上预训练,就可以在LIBERO仿真平台上达到SOTA级别效果。经过预训练后同一模型可以同时完成操作与导航等任务,实现了通用的动作学习。



为什么是隐式动作?

因为它既“压缩信息”,又“对齐知识”


传统的通用模型如OpenVLA采用自回归策略直接预测每一步动作,推理速度慢且鲁棒性不强。UniVLA则另辟蹊径,将动作预测划分为三个阶段:


1. 隐式动作学习:

从海量跨领域视频中“默默学习”,通过逆动力学建模并使用VQ-VAE进行离散化,构建出对任务理解更强、更紧凑的隐式动作空间;

2. 通用策略预训练:

借助Prismatic-7B等大模型架构,将视觉观察与语言指令编码为统一输入,预测隐式动作序列,从而实现具身无关的通用策略;

3. 动作解码与部署:

使用轻量化解码器将隐式动作转译为真实机器人控制信号,作为下游的控制策略,从而能够在多款机器人平台上进行快速适配和部署,轻装上阵、高效执行


图片

UniVLA的前两阶段训练策略


相比 OpenVLA 那种直接在动作空间里“硬解”的做法,UniVLA 的“隐式编码”(Latent Encoding)策略有几个显著优势:


1. 可以更好的利用视频数据,泛化范围大:

只需视频和语言,就能从互联网视频数据中学技能,提取动作;

2. 压缩维度,降低计算成本:

动作空间被有效压缩,推理速度从<5Hz 提升至 10Hz+;

3. 适配灵活,迁移效率高:

由于隐式动作具有通用性,故只需轻量微调,就能部署到不同机器人上,下游数据效率拉满。


数据算力所需更少,性能反而更强


相比OpenVLA,UniVLA在计算效率和适配能力上表现出压倒性优势:预训练GPU时长仅为其1/20,却在多个任务和平台上实现性能的全面超越。


在LIBERO、CALVIN等多个操控基准测试中,UniVLA展现出优越的通用性与任务适应能力,在四项评估指标中成功率平均提升达18.5%。更值得注意的是,仅使用人类视频预训练(Ego4D),UniVLA也能在LIBERO-Goal中达到SOTA效果。同时只需要10%的数据就在LIBERO-Goal上达到了SOTA效果(62.4%),优于同样数据量训练下的OpenVLA(11.6%)和 OpenVLA-OFT(43.0%),数据利用效率如同开挂。


图片

LIBERO 实验结果


更重要的是,UniVLA以其结构化的隐式动作空间设计,天然具备扩展性与数据可扩展性:无论是引入更多人类示范作为提取隐空间表征的与训练,还是增加新的机器人平台仅通过轻量微调即可迁移适配,实现跨具身、跨视角、跨任务的全面通用。


在真实机器部署中,受益于仅12M参数的简单动作解码器以及高效的隐空间动作表征,UniVLA可以实现(闭环)10Hz以上的实时推理控制,在多个任务中(如“清理案板”、“叠汉诺塔”等)展现出高精度、高鲁棒的操作能力,平均成功率达到80%+,推理时延远低于OpenVLA,打通了通用大模型到落地应用的可能路径。


图片

UniVLA在真机实验表现出色


同时在设计的若干泛化实验中,面对各种泛化挑战,它不仅不社恐,还能“快准稳”上手。通用的隐式动作空间+异构数据的预训练,让它不止是“聪明”,而且真“通用”。


图片

UniVLA在不同泛化条件下的表现


多亏了UniVLA的‘隐式动作+通用训练’,UniVLA能够充分在大量异构数据(操作、导航甚至人类视频)中进行学习,并能够有效容纳足够多的知识,单全收,越学越强。


图片

UniVLA的异构数据扩展能力


少样本情况下UniVLA性能优势尽显,在LIBERO长程任务基准上仅用10%数据(不到50条demo,平均每个任务仅5条)击败了全量数据微调的OpenVLA。


图片

UniVLA在少样本情况下的表现


UniVLA的方法不仅代表了视觉语言动作模型(VLA)领域的一次突破,更为“通用机器人智能”提供了新的思考与贡献:从像素重建走向语义解耦的隐式动作学习、从高耗能预训练走向轻量高效的跨本体适配、从单一机器人数据闭环走向人类视频与多本体数据的开放协同。


- END -