技术解读丨RoboDual:行业首款通用具身操作的双系统协同框架诞生 发布时间:2024-10-22 13:00:00


        近日,智元机器人携手上海人工智能实验室成功打造了行业首款通用具身操作的双系统协同框架——RoboDual。


        这一创新成果将Generalist(通才)的广泛适应性也就是泛化能力,和Specialist(专才)的高效精准性完美融合,显著增强了机器人操作的灵活性和准确性。


        在传统的具身智能机器人系统中,“大脑”负责环境理解、任务规划和决策,推理能力出众但实操效率不高;而“小脑”则专注于运动规划和控制,操作能力强但泛化能力有限。两者通常各自为战,难以实现协同作业。


        智元机器人与上海人工智能实验室创新性地研发出RoboDual双系统协同框架,利用“小脑”低延迟、高精度、训练高效的优势来弥补“大脑”实操效率低下的不足。该框架直接部署在机器人边缘侧进行高效推理,“大小脑”交替执行任务。这种设计不仅提高了操作精度和降低了延迟,还大幅提升了场景和指令的泛化能力。同时,在单个任务或场景的微调上也更加高效,并在各项常见评测指标上超越了通才和专才模型。


        下面让我们一起看下RoboDual系统的技术表现。





        构建通用且泛化的操作策略一直是机器人领域的核心目标。传统的机器人学习方法通常针对特定机器人和任务来开发模仿学习算法,例如ACT和Diffusion Policy,这些方法在特定场景中表现出色,但在泛化能力上较为有限。随着机器人在开放、多任务环境中的应用增加,能够适应不同任务和机器人构型的系统需求也在上升,这促使了通用模型的发展,如RT-2和OpenVLA等。这些模型通过大规模、异构的数据集提升跨域泛化能力,旨在将普遍知识融入到机器人控制中。


        虽然基于 VLA 的通用策略在不同场景中表现出很强的泛化性,但其仍存在一些局限:


           ·目前预训练好的模型仍不具备zero-shot的迁移能力,而对现有大模型直接微调需要足够的训练数据和算力。因此我们需要更高效的路径来快速适配(adapt)到新场景或新机器人本体;


           ·以OpenVLA为例,这类大模型的参数量庞大,并以自回归的方式预测每个自由度的动作输出,推理延迟高(<5Hz),很难对一些动态场景做实时响应,也难以实现需要精细位置控制的操作任务;


           ·当前的通用模型仅能处理单帧的 RGB 输入,虽然这允许它们可以通过更大规模的(非机器人操作)数据集进行训练,但在深度信息或触觉反馈等额外传感器输入对机器人操作任务至关重要的情况下,很难灵活扩展输入模态以提高性能。


221.jpg

RoboDual整体框架结构


        我们发现,在具身走向通用的路径中,专用策略(Specialist Policy)低延迟、高精度、训练高效的特点刚好可以弥补当前通用模型(Generalist Policy)的劣势,于是团队提出了RoboDual工作,将Generalist的泛化能力和Specialist的精准高效结合到一个协同工作框架中,不仅在操作时的精度更高、延迟更低,还具备更强的场景、指令的泛化能力,同时对于单个任务或场景的微调更加高效。


222.jpg

RoboDual模型框架


        RoboDual中的Generalist部分参考基于Prismatic-7B VLM的OpenVLA架构,以观察的视频帧与指令作为输入,自回归地生成action latents及相应的离散动作输出,并将其传到下游Specialist模型作为condition;Specialist部分采用可扩展的Diffusion Transformer (DiT)架构,接收多种传感器(如RGB相机)输入的同时,将Generalist的输出作为参考,经过去噪得到未来几步的连续动作。


        同时,由于Generalist与Specialist的输出频率不同,为保证较低的控制延迟,Generalist与Specialist实行异步控制(即Generalist输出一步时,Specialist输出多步),在较慢,但更鲁棒的Generalist输出指引下,实现顺滑且灵巧的动作控制。在真机实验中,我们采用NVIDIA RTX 5000 Ada GPU进行推理,RoboDual可以实现15Hz的控制频率。


        在大量仿真(CALVIN)及真机的实验发现,RoboDual均领先现有的Generalist和Specialist模仿学习方法,可以利用仅5%的数据实现任务和场景的高效适配。此外我们在真机实验中还设计了众多泛化场景,RoboDual在不失推理效率的同时实现了更优的泛化性能。


224.jpg
223.jpg

真机任务及泛化实验


        通过将RoboDual与OpenVLA进行对比,可见RoboDual在同样的泛化场景中保持了明显更低的推理延迟。至此,RoboDual提供了一个让通用操作大模型广泛落地应用的解决方案。


真机推理效率对比(与OpenVLA)


        智元机器人与上海人工智能实验室共同研发的RoboDual系统,不仅提供了一个让通用操作大模型广泛落地应用的解决方案,更为机器人技术的未来发展指明了方向。随着RoboDual系统的不断完善和应用,我们希望它能为机器人操作领域带来更高效、更精准、更智能的未来。