Figure Helix 02:告别十万行代码,人形机器人也能优雅做家务

多年来,人形机器人一直像是科技圈里那些“只会花拳绣腿”的青春期少年:它们在社交媒体的视频里跳舞、翻跟头确实惊艳,可一旦被要求干点正经家务,往往会变得笨手笨脚,甚至当场“罢工”。在机器人领域,这被称为“移动操纵协同”(loco-manipulation)难题——即如何让机器人一边走路一边干活,而不会因为逻辑冲突导致系统崩溃,最终沦为一堆昂贵的废铁。

现在,Figure AI 带着全新的 AI 模型 Helix 02 杀回了战场。它不仅能做到“一心二用”,甚至能一边走路、一边小心翼翼地端着盘子,并在一个长达四分钟的连续自主序列中完成洗碗机的卸载工作。这不再是那种靠后期剪辑、只能维持几秒钟的“买秀”演示,而是单个神经网络对机器人全身的极致掌控——从像素感知到扭矩输出,它终于填补了机器人“行走”与“操作”之间的鸿沟。

告别“缝合怪”式的机器人代码

在传统方案中,想让人形机器人干点实事,通常需要一套像“弗兰肯斯坦”一样东拼西凑的复杂代码。一个控制器负责走路,另一个负责平衡,第三个负责伸手抓取。这种分段式的逻辑导致动作极其缓慢、生硬且脆弱。只要物体的位置发生一点点预期外的偏移,整座逻辑沙塔就会瞬间崩塌。

“真正的自主需要一种从根本上不同的东西:一个能够同时思考全身动作的单一学习系统,”Figure 在公告中表示,“一个能够持续感知、决策并采取行动的系统。”

这正是 Helix 02 诞生的使命。Figure 并没有将零散的系统缝合在一起,而是构建了一个层级化的 AI 架构,让机器人的大脑和身体像一个统一的整体一样运作。

机器人的“三层大脑”架构

Helix 02 背后的魔力源于一套三层系统架构,每一层都在不同的时间尺度上运行。你可以把它想象成一家公司的管理层级:从制定战略的 CEO 到具体搬砖的执行人员。

  • System 2(战略家): 这是高层推理层。它负责理解场景和语言,将“卸载洗碗机”这样的模糊指令分解成一系列目标。它思考得较慢,但掌控大局。
  • System 1(战术执行官): 这是连接机器人所有感官(头部相机、新增的掌心相机以及指尖触觉传感器)与全身关节的视觉运动策略(visuomotor policy)。它将 System 2 的目标转化为频率高达 200 Hz 的全身指令,反应极快。
  • System 0(运动员): 这是整台机器人的基石,一个基于超过 1000 小时人类运动数据训练的基础模型。它以惊人的 1 kHz 频率运行,确保每一个动作都稳健、平衡且自然。最让人感到“凡尔赛”的是,Figure 指出 System 0 直接取代了 109,504 行人工编写的 C++ 代码。简单来说,他们开除了整整一个图书馆的代码量,雇佣了一个通过“刷视频”看人类动作自学成才的 AI。
Video thumbnail

这种“从像素到全身”的管线,让机器人在长达四分钟的“洗碗机芭蕾”中完成了 61 个不同的协同动作。它能在走路、搬运、放置之间流畅切换,甚至在双手拿满东西时,自然地用屁股顶一下来关上抽屉。

它到底能干什么?

虽然洗碗机演示是全场焦点,但 Figure 03 机器人引入的新硬件——特别是掌心相机和触觉传感器——解锁了更高阶的灵巧性。这些传感器为 Helix 02 提供了此前仅靠视觉系统无法获得的反馈。

这些触觉传感器可以感知小至 3 克的压力,灵敏到足以“感觉到”一枚回形针。这开启了一系列精细动作的可能性。

超越洗碗的灵巧性

Helix 02 经历了一系列高难度测试,以证明其精细动作处理能力:

  • 拧开瓶盖: 需要精准的双向协同和力度控制,既要拧开,又不能捏碎瓶子。
  • 从收纳盒中取出一颗药丸: 当头部相机视线被遮挡时,利用掌心相机进行近距离观察。
  • 用注射器精确抽取 5 毫升液体: 这项任务需要触觉反馈来施加平稳、持续的力量。
  • 从杂乱的箱子中分拣金属零件: 这是来自 Figure 自家 BotQ 制造工厂的真实应用场景,展示了它在混乱、不可预测的环境中的工作能力。

深度分析:人形机器人实用化的分水岭

当其他公司还在忙着让机器人表演体育竞技项目时,Figure 已经将重心转向了那些枯燥但至关重要的挑战:让人形机器人在现实世界中真正变得有用。从最初仅能控制上半身的 Helix,到如今实现全身自主协同的 Helix 02,Figure 仅仅用了一年时间。这种进化速度是行业进步的显著标志。

最核心的转变在于从“生硬的人工编码行为”向“可进化的学习系统”跨越。通过在海量人类运动数据集上训练基础模型,Figure 为机器人注入了一种关于双足形态如何移动和平衡的“直觉”。这让高层 AI 可以专注于“做什么”,而底层系统则负责搞定“怎么做”。

这不仅仅是关于制造一个能把某件事做好的机器人,而是关于创建一个能够学习“任何事”的平台。正如 Figure CEO Brett Adcock 所言,Helix 神经网络的每一次改进都可以反馈给整个机队,让所有机器人都能从个体的学习中获益。考虑到目前机器人的执行器仅以峰值速度的 20-25% 运行,当前硬件的性能天花板还远未达到。

虽然目前的成果仍处于早期阶段,但它们代表了一个根本性的转变。通过解决持续的、全身自主协同问题,Figure 迈出了通往“通用机器人”的关键一步——也许很快,它就能真正接管家务,且不再需要人类在后台编写复杂的逻辑指令。