系列解读 | 行业首次,具身智能有了类似自动驾驶的演进路线 发布时间:2024-09-14 19:46:00

      机器人正以前所未有的速度进入大众视野,近期世界机器人大会WRC盛况再次印证了这一趋势,各式各样的机器人集中亮相、大显神通,得益于“聪明的大脑”,它们有望逐步进入工厂、商超、甚至家庭等,帮助人类或独立完成各种各样的任务。




01

具身大模型驱动机器人进化


      这里“聪明的大脑”,指的是大模型,更准确来说,是具身大模型。


      当前大模型可以划分为两大类别:非具身大模型和具身大模型。


      非具身大模型:以ChatGPT、GPT-4V、Sora、GPT-4o为代表,这类模型的主要特点是输入从单模态文本扩展到多模态的语音、图像、视频,其输出也包括了文本、音频、图像、视频等,面向的是人类。这些大模型功能强大,但并不直接针对机器人领域,更多还是在人机交互、内容生成等方面展现价值。


      具身大模型:相比之下,具身大模型则直接面向机器人,核心特点对物理世界的感知或接收人类指令后,机器人能够直接高频输出动作。自动驾驶大模型(如特斯拉FSD)是最典型的代表,汽车通过实时接收视觉信号(主要是图像)的输入,可以直接控制汽车方向盘、踏板等机构,实现自动驾驶功能。




t2.png




      机器人作为更复杂的物理系统,机器人具身大模型的输入不仅包括实时视觉信号,还涉及到人类语言、触觉等多种模态,其动作空间的自由度也更高,还需要全身各部位(底盘、腿、手臂、手指等)的协同运动。





02

业界代表:谷歌RT-2


      谷歌RT-2是机器人大模型的代表,RT-2是一个端到端的具身大模型,它将机器人的感知、理解、决策、规划、动作等融为一体,能够在开放的环境中机器人可以直接输出动作。


      在谷歌山景城办公室的厨房测试中,RT-2展现了极高的任务执行成功率(近98%),但是,这一成绩的背后也暴露出RT-2端到端大模型面临的挑战。


      首先,泛化性是一大难题。RT-2在特定厨房环境中的高成功率,一旦换到施工工地、嘈杂后厨等复杂场景,成功率便骤降至30%左右。


      尽管谷歌为此组建了一个16人的团队,用13个机器人,花了17个月的时间,采集到了13万条数据,这些数据覆盖了移动、抓取、放下这些移动场景中很多任务,耗资了上千万美金。这表明,RT-2在数据规模和模型泛化上仍存在局限。


      其次,这种端到端具身大模型的反应速度及运动频率也是一大挑战。RT-2等输出运动频率仅能达到1-3Hz,使得机器人的反射弧长达0.3秒甚至1秒,远远低于人类和许多实际应用场景的需求。


      这表明当前机器人具身大模型还存在诸多不确定性,需要在数据采集、模型训练等各个层面探索新的思路和方法,特别针对具身大模型的发展路径上需要有一个指引。





03

自动驾驶的启示


      可以从自动驾驶和人脑机制中获得一些灵感。


      首先是自动驾驶,自动驾驶L1-L5技术演进路线为机器人提供了两种可能的路径:


      一是以谷歌母公司Alphabet旗下Waymo的“一步到位”或者“跨越式”路线,全力拥抱L4+高级别自动驾驶技术;二是以特斯拉为代表的“渐进式路线”,它的思路是在量产车上优先搭载L2/L3级辅助驾驶,低成本收集数据,训练算法迭代技术,最终做到L4/L5。


      当前Waymo路线似乎是遥遥无期,特斯拉的FSD离商用落地越来越近。


      对于机器人而言,或许可以借鉴特斯拉的渐进式思路,先解决部分场景下的应用问题,再逐步向通用化迈进。


      其次,人脑的双系统机制(系统一的快思考与系统二的慢思考)也能为我们提供了有益的启示。人脑有系统一和系统二,有快思考和慢思考,前者是小脑的能力,对应机器人里交互控制、灵巧操作等技能,可以依靠小模型来处理;后者更多是大脑的能力,包括认知、理解、规划等,可以用大模型解决。


      上层大模型和下层小模型相互结合,这种分层架构不仅有助于提升机器人的反应速度和运动频率,还能增强系统的灵活性和可扩展性,有可能更快通向通用机器人。





04

机器人大脑演进路线新方案


      无独有偶,国内头部机器人公司智元,近期在其年度新品发布会上,发布了具身智能G1~G5技术路线图,这也是行业首次对具身智能技术发展有了清晰的定义。




t3.png




     这一路线图借鉴了自动驾驶的等级划分思路,将具身智能技术的发展分为五个阶段:


G1阶段:基础自动化阶段。基于简单的机器视觉加上人工程序化编程,这一阶段的机器人系统设计和配置都针对特定的应用需求,缺乏泛化能力。


G2阶段:通过抽象出可复用的原子技能,机器人可以实现一定程度上的场景迁移和泛化。这一阶段的机器人已经能够基于大语言模型(任务编排大模型)进行任务编排,具备一定的智能水平。


G3阶段:端到端智能化系统的初步实现。在这一阶段,机器人将从传感器数据直接学习并生成控制指令,并形成了一套通用的技能训练框架,上层的任务编排大模型逐步演变为认知推理规划大模型。与G2阶段相比,G3最大的区别在于其原子能力不再依赖于手工设计,而是通过大量数据采集和端到端训练获得,并逐步形成了一个个小模型。这种数据驱动的方法减少了人工干预,显著提高了系统的泛化能力。在G3阶段,机器人将能够更灵活地适应不同场景和任务,通过持续学习不断优化自身性能。


G4阶段:通用操作大模型的诞生。在这一阶段,随着数据量不断增加,机器人将不再局限于单一技能的训练和优化,而是能够跨越不同任务领域,实现技能之间的关联和融合。例如,拧瓶盖和开门把手的技能在底层可能共享相似的动作模式,通过模型的训练,机器人能够理解这些技能之间的内在联系,并生成更加高效、通用的操作策略,即一个个小模型会泛化为通用操作大模型。通用操作大模型的出现将极大地提升机器人在复杂任务中的表现,使它们能够像人类一样灵活应对各种挑战。


G5阶段:迈向人工通用智能(AGI)的终极目标。在这一阶段,认知推理规划大模型和通用操作大模型将实现深度融合,形成一个真正的感知、决策、执行的端到端大模型。这个模型将具备跨任务的泛化能力,能够在不同场景和任务中自由切换,实现高度智能化的自主作业。G5阶段的机器人将不再是简单的工具或设备,而是能够与人类共同工作、相互协作的智能伙伴。它们将能够理解人类的意图和需求,提供个性化的服务和支持;同时,它们也将能够自我学习和进化,不断适应新的环境和任务。这样的机器人将极大地改变我们的生活方式和工作模式,推动社会向更加智能、高效、和谐的方向发展。


      从具身大模型的兴起,到谷歌RT-2等前沿项目的探索与挑战,再到智元机器人G1~G5技术路线图的清晰规划,每一步都预示着机器人技术正朝着更加智能、灵活、通用的方向迈进。


      未来,随着数据量的爆炸性增长、算法模型的持续优化以及跨学科技术的深度融合,机器人将不再局限于单一任务的执行,而是能够像人类一样具备多任务处理、自主学习和适应复杂环境的能力。