天才少年稚晖君智元机器人走路进场!AI模型做大脑,目标售价20万以内 发布时间:2023-09-07 10:33:12

——转自新智元

导读:鸽了半年,稚晖君的创业首秀——人形机器人「远征 A1」终于亮相了,半年造出来的机器人,能帮我们搬砖、当保姆、搞科研。


稚晖君的创业首秀,终于来了!


万众瞩目之下,「远征A1」踏着步走上了舞台,稳稳站在C位,被团队的工作人员簇拥着一起合照。
640.gif
三天前,稚晖君曾发出预告:「鸽王的半年之期已到,周五见。」短短一句话,让整个业界沸腾了。

今天,他果然没有让我们失望。消失了半年之久的「野生钢铁侠」,一上来就憋了个大的。

640 (1).gif


如何才能让机器人替我们做家务?



一开场,稚晖君首次正式为我们介绍了「智元」的含义。
640.png
「智」,即智慧;「元」意味着人的象形,代表着人的两条腿。英文名AGI+Bot,也是透露出不小的野心。
这半年,ChatGPT引领了LLM的风潮,而智元想做的,就是创造出像人一样灵活的机器人。最终目标就是,让智能机器人成为推动人类生产力最大的动力。
稚晖君引用了大家常讲的一个段子:我们想让AI做的事,是做饭、打扫房间、洗衣服、扔垃圾,然而它们实际在做的事,是聊天、绘画、写作、作曲、打游戏……
640 (1).png
所以,怎样才能让机器人真正为人类所用,帮我们做家务、帮我们打工赚钱,让我们有时间去娱乐、去写诗作画?
这就需要AI和机器人技术进行深层次的结合。而这样的任务,就涉及到对环境的理解、上下文的推理、物体识别运动规划等等复杂的技术挑战。
这些复杂任务,并不是硬件或软件的问题,而是一个系统的软硬件、算法各方面综合的协同性问题。
接下来,稚晖君介绍了几个月以来,团队在通用人形机器人本体和具身智能两方面分别取得的阶段性进展。
640 (2).gif
640 (3).gif
640 (4).gif
640 (5).gif

为什么做人形机器人



每个做人形机器人的团队,都会被问到这样一个问题:为什么要把机器人做成人形?
稚晖君表示,原因就在于「从第一性原理出发,人形双足机器人是人类环境中最为通用的终极形态!
我们生活的物理世界中各种场景、设备、任务、工具,都是为人体形态量身打造的。
640 (6).gif
只有机器人像人,具备类似的身体结构和能力,才能够帮助机器人更好地融入人类的生活和工作环境,并且无需对机器人做任何改造。

如果机器人像人,它就可以做到人机交互、情感陪伴,甚至发挥在危险环境中替代人的巨大价值。

640 (7).gif









当然了,稚晖君表示,针对特定的结构化场景,其他形态的机器人也会带来实际价值。

然而,让机器人模仿人类行为,进行精细的运动控制和协调,是世界性的难题,需要我们在机械设计、运动控制、感知反馈各方面取得技术突破。
著名的莫拉维克悖论告诉我们:让机器人像人类大师一般下棋,是相对容易的,但是要让机器有如1岁孩子般的感知和行动能力,却是相当困难的。
640 (2).png
而对于智元来说,若想攻克难题,还需要从机器人本体硬件设计、算法积累去实现突破。


硬件设计


在远征A1本体硬件设计上,全身共有49+自由度,搭载了谐波一体关节、直线推杆、无刷行星伺服、空闲杯电机等驱各类执行器。
这些执行器就像人类关节一样,决定了人做各种动作的灵活性,机器人也是一样。

640 (8).gif

核心关节


对于人形机器人,最重要的是腿部的关节器,也就是电机。
在此,智元也实现了核心关节的自研——PowerFlow关节电机。
640 (3).png
一个灵敏的机器人,其关节需要涵盖以下特点,做到体积小,重量轻、功率密度足够高、能量利用效率高、高响应带宽等一系列特性。
这与传统的轮式电机,要求是不一样的。
机器人的核心关节,是未来实现规模量产、低成本制造的重要门槛之一。
通过算法控制设计,和各种参数的正向分析,得到了每个关节所需的力矩转数曲线。
有了参数基础之后,基于此自研设计了PowerFlow关节电机,有了一系列创新和优化,采用了径向磁通的外转子电机方案,未来也会有轴向磁通的版本。
640 (4).png
为了达到更高功率密度,关节模型组在如此小的提集中,创新性集成了液冷循环散热系统。
搭配一一体化自研的矢量控制驱动器,整体的控制扭矩可以容易地超过350Nm。
在水冷散热的加持下,能够保持更长时间的控制扭矩输出。
640 (5).png
另外,我们也看到远征A1并不像人类一样,膝盖向前弯曲,而是采用了「反关节设计」。
稚晖君解释道,这款机器人设计的初衷,就是为了应用于各种真实的任务场景中。
因为现在的机器人关节自由度不够高,反关节的设计可以拥有更大的空间,更适用于干活。
640 (6).png
灵巧手
因为智元的目标是让机器人参与各种生产力场景,另外一个重要的核心零部件,就是「灵巧手」。
这款自研「灵巧手」,拥有12个主动自由度,5个被动自由度,而且所有驱动都是内置的。
640 (7).png
因为它用于精密制造,团队在它的指尖集成了基于视觉的指尖传感器,可以分辨操作物的颜色、形状、材质。
而且,它还可以基于算法的数据融合,做到近似触觉的压力传感器的效果。
同时,通过创新的指尖传感器视觉闭环的设计,降低了对于整机电机的精度需求,因为可以实现末端的视觉闭环。
除了以上提到了一些元部件之外,远征A1还搭载了一系列感知元件、算力系统、以及配套的具身智能框架。
所以这些部件的高效组合,使它成为智慧高超、肢体强健的机器人开发平台。
640 (8).png


模块化设计


除了本体的硬件参数,团队在整机的设计中,还包括了模块化设计的理念。
机器人不止是足式的,还可以是轮式的底盘,可以自由搭配不同形态,甚至未来还会有轮足款。
说到这里,稚晖君表示,知道大家非常关心哪吒的进展,稍后会给大家展示相关视频。
而且,除了上下身的组合,末端的灵巧手,也是支持自主更换的。
在某些场景下,它可能更适合各种专用的工具,比如螺丝刀、电钻。
总之,每个关键部件都能进行单独使用和搭配使用,合是一个机器人,分是无数个AI机械工具。
这就体现了通用性。
640 (9).png


运控算法


有了优秀的硬件平台作为基础,再者,就是核心的运控算法。
在6个月的研发时间中,算法已经快速迭代了三版运控算法,从最初的IQP,到CMPC、线性MPC,再到最近使用的非线性的NMPC。
以及,目前基于各种学习下开发的强化学习算法。
可以说,智元现在拥有业界一梯队算法研发能力。
640 (10).png
同时,智元也在搭建离线轨迹优化平台。
国外顶级机器人团队,比如波士顿动力狗,能够实现跳舞、跑酷等一系列高难度动作。这对于智元来说,也不是高难度的问题。
稚晖君表示,与其他团队不同的是,实现这些能力之前,我们希望让机器人成本控制在20万以内,拥有真正落地可能。
640 (11).png
所以,如何让通用机器人实现量产?还得回到最初所说的「具身智能技术」。
智元认为,硬件本体是前置条件,更重要的是背后机器人的「AI大脑」。
正是大语言模型技术的飞速发展,使得机器人能够自主感知环境、理解任务、动作编排等自主完成一套流程成为可能。
所以,稚晖君表示,「现在,我们不止需要ChatGPT,还需要WorkGPT。」


WorkGPT


我们知道,基于超大规模的数据预训练的语言和图像大模型,具备强大的语义理解、逻辑推理、图像识别、代码生成能力。
这些能力对于需要在真实物理世界中执行各种复杂任务的通用机器人,是非常重要的。
640 (12).png
但是如何利用多模态大模型的能力,来赋能机器人的细微动作编排呢?这也是目前非常热点的研究方向。
下面的这个视频,在前一阵非常热门。
团队实现了自然语言端到端到机器人的映射,可以用自然语言让机器人编排整个任务,还能动态调整任务。
640 (13).png
智元对于机器人和大模型结合的基本认知是,即语言和图像大模型对于机器人领域应用最大的价值:
首先是嵌入在大模型中,庞大的先验知识库&强大的通识理解能力。
比如,让机器人把桌上垃圾扔到垃圾桶里,不再需要告诉它垃圾是什么、垃圾桶是什么,所有的知识都是预训练GPT模型,具有先验知识。
所以,大模型的出现,能够让机器人更好地把原有的能力泛化到更通用的场景中。
640 (14).png
第二点,就是大模型具有的复杂语义多级推理能力,也即所谓的「思维链」。
比如视频右边,需要让机器人对方块进行一系列操作。
640 (15).png
让它把蓝色方块放到红色方块上面,非常简单。但如果让它把蓝色方块放到红色方块下面,就复杂了。
它需要理解重力是什么回事,东西不会飘在空中,怎样通过多级操作完成这个任务?这就是一个典型的多级推理思维链的过程。
稚晖君表示,随着大模型时代的到来,通过利用大模型的通识能力和举一反三的推理能力,我们可以看到走向通用机器人的一道曙光。


El Brain框架


机器人的El Brain框架可以分为云端超脑、大脑、小脑、脑干。
640 (16).png
大脑提供AI辅助的抽象思维能力,如逻辑推理,思考能力,完成机器人任务级和技能级的调度。
比如规划任务「去看看门口是否有快递」,然后具体完成规划路径,开门关门,抓取释放物体等动作的调度。
如果端侧部署的模型泛化能力不够,还可再配合上云端超脑,在线解锁更复杂的任务调度能力。
小脑负责的是产生运动控制指令生成。
就如同人走路,大脑只发出宏观的指令,比如前进后退,需要小脑控制平衡,运动学动力学。
对于机器人来说,小脑主要是进行指令级的控制,设置上身姿态,控制指关节运动,控制头部姿态等。
脑干这一层级主要是解决底层的运动控制能力的问题。
比如,所有的电机的控制,电流环,速度环,位置环的控制。
在技能级这个模型层面,团队定义了一系列的语言操作,叫做Meta Skill。
640 (17).png
Meta Skill的发展类似于智能驾驶中从L1到L5的整个过程,如果要实现全场景通用的机器人,也不可能是一步到位的过程。
在语言操作库限定的有限范围内,机器人可以实现自主的推理决策,完成端到端的任务编排。
随着语言操作能力库的不断扩充,机器人能够胜任的任务空间能够成指数级的增长。
在交互过程中不断成长,最终实现全场景任务覆盖。


商业落地


稚晖君表示,智元机器人不但是最酷的机器人,而且也会是最实用的机器人。
此外,团队一开始就是奔着商用落地去的,因此方向上主要瞄准工业制造领域,比如3C制造,汽车制造等等,快速推进产业化。
目前,已经和国内相关行业龙头企业进行了对接。
640 (9).gif


640 (10).gif


生态搭建


生态环境的搭建包括基础设施和开发者激励。
团队除了会向开发者提供整个机器人的开发套件、HDK、SDK外,还会提供基础预训练大模型,AgiROS仿生平台,以及低成本的教育版硬件,供开发者进行二次开发。
与此同时,还会开启一个智元远征启航的人才计划,吸纳人才。
640 (18).png

半年时间,从0到1



最后,稚晖君回顾了最近半年来,自己的心路历程。
2月底成立公司,项目立项、组建团队。
半年时间从0到1,实现了完整样机的研发流程。
稚晖君表示,如此之高的研发效,哪怕放在整个机器人行业里,也是相当炸裂的!
640 (19).png
其中,在这半年的时间里,团队挑战了传统思维,打破了各种框架,尝试了许多前所未有的创新方案,每一步都是全新的探索。
下面这些图,记录着团队这半年过程中的点点滴滴。
640 (11).gif
640 (12).gif
640 (13).gif
发布会结束前,稚晖君向所有人分享了自己的个人感想:「人因梦想而伟大」。
640 (20).png
他希望有一天,真正能够实现像科幻电影中智能的机器人。
这些机器人不再是简单的自主装置,而是拥有自我思考能力的智能伙伴,能够感知和理解我们的世界,与人类进行深入的沟通和合作。
640 (21).png
而远征A1的发布,是智元追求卓越的起点,标志着在人工智能机器人领域迈出的重要一步。