GO-1大模型 × ADC对抗式数采:具身落地新范式 发布时间:2025-03-19 14:55:56

导 言 

在具身智能领域,智元启元大模型GO-1 依靠先进的模型架构和高质量的海量真机数据,展现出了通用的感知理解、动作执行等能力。如今,我们进一步提出一种全新的数据采集范式ADC (Adversarial Data Collection, 对抗数据采集),大幅提升了数据的信息密度和多样性,降低了后训练所需的数据量、压缩了训练成本,且提升了模型的鲁棒性和泛化性,与传统范式相比,使用20%数据量达到其2.7倍的效果。


20250318-181605.png


论文地址: 

https://arxiv.org/abs/2503.11646

项目地址:

https://sites.google.com/view/adc-robot/home


01 ADC: 突破性的对抗式数据采集方案 


传统的数据采集采用单次重复范式,存在视觉冗余、语言指令重复及动作相似的问题,导致数据的多样性和有效性不足。尽管存在仿真等技术丰富数据的多样性,但却面临Sim2real域间差异等问题,难以实现在复杂真实环境中快速高效扩展。


为了解决上述问题,智元推出了一种全新的数据采集方法——对抗式数据采集ADC,在数据采集过程中增加人为动态扰动,包括视觉和指令对抗,从而:

  • 提升单条数据的信息密度与多样性

  • 减少后训练数据需求量和模型训练成本

  • 增强模型的泛化能力与鲁棒性


如下图所示,研究团队对比分析了机器人操作中真实数据采集的两种流程:

  • (a) 传统方法: 远程操作者在静态视觉环境中,依据固定语言指令执行任务。数据采集局限于单一场景,缺乏多样性。

  • (b) 对抗式数据采集(ADC)框架: 采用“双人协同”模式,新增一名对抗操作员,在采集数据时,对抗采集员通过动态扰动改变视觉元素(如背景、物体位置/姿态)及语言指令(如任务目标),提升信息密度和多样性。


2.png


02 ADC如何提升数据信息密度和多样性 


ADC通过在单次示范中注入多层次、跨模态的扰动,大幅提升数据的信息密度与多样性:

  • 视觉扰动: 动态调整物体位置、姿态及背景;

  • 语言扰动: 实时修改任务目标或换用不同表达方式;

  • 失败恢复: 采集中自然融入错误应对策略;

  • 信息压缩:单次ADC演采集≈数百次传统采集的信息量。


3.png

其中,传统数据采集方案与ADC数据采集方案对比视频如下所示:



03 少数据,强性能,更鲁棒


为了验证ADC设计的有效性,研究团队在智元精灵G1机器人平台上开展了实验,设计了“水果分类放置”任务作为验证场景。我们分别用传统范式和ADC新范式采集了大致相当帧数的数据。由于ADC采集过程中无需频繁重置场景,采集相同帧数的有效数据所需采集时间基本和传统方式一致。


在静态环境测试中,相比传统数据采集训练的模型,ADC采集的训练数据使模型在任务中表现出突出的准确性与可靠性,平均成功率在3组不同测试条件下分别提升了53%、70%、59%。


5.png

在静态环境下的性能评测


在动态环境测试中(例如物体位置或语言指令动态变化),传统方法训练的模型表现完全失效,成功率全部为0而ADC训练的模型能够应对视觉和语言扰动,展现出更高的鲁棒性。


14.png

动态环境下对抗视觉扰动的性能评测


15.png

动态环境下对抗语言干扰的性能评测


为了验证ADC数据的高信息密度特性,我们分别使用传统采集方式的全量数据和ADC方式20%/50%/100%的数据进行了模型训练,实验结果表明,仅使用20%的ADC采集数据,模型性能就达到全量传统数据的2.7倍。


11.png

不同数据配比下的模型性能评测


还有比较惊喜的是,ADC数据训练的模型在模拟“传感器失效”(屏蔽机器人某些摄像头输入)的场景中,依然表现出强大的抗干扰能力。从注意力热力图中可以观察到,ADC训练的模型能够动态将注意力集中在有效输入上,而非分散在无关区域。对于这种情况,我们认为是由于ADC数据采集过程中,有更多的被遮挡或者部分可观的数据情况,提升了模型对目标物体的观察全面性,从而提高模型的视觉表征能力,这进一步验证了ADC采集数据的多样性。


8.png


9.png10.png


此外,通过ADC采集的数据,训练出的模型展现了动态人机协同适应错误恢复的能力。例如,在抓取失败后,机器人能够自动调整姿态并重新规划路径完成任务。


12.png

13.png


04 结语


ADC 技术以数据高信息密度与多样性为核心,重新定义了具身智能的数据采集方式。通过GO-1 × ADC的新范式,大幅降低了具身智能的落地门槛,赋能千行百业。