Generalist GEN-1 机器人大脑:99% 成功率,速度提升 3 倍

说实话,大多数机器人演示更像是一场精心编排的“失望芭蕾”:动作迟缓、笨拙,让你不禁怀疑在它完成任务之前,宇宙的热寂是否会先行到来。但在嘈杂的行业噪音中,总有一些突破能穿透迷雾。今天,Generalist 发布的全新 AI 模型 GEN-1 便是如此。这家公司放出了一个大胆的宣言:他们为机器人打造了一个通用的 AI 大脑,它不仅能用,而且表现卓越。

Generalist 称 GEN-1 是首个真正“精通”简单物理任务的模型,并且拿出了实打实的证据。我们谈论的是在任务成功率上的飞跃——它的前代产品 GEN-0 仅能达到 64% 的“及格水平”,而 GEN-1 的平均成功率飙升至 99%。此外,它的任务执行速度比目前最先进的技术快了三倍。最关键的是,它只需约一个小时的机器人特定数据,就能学会一项新任务。这不仅仅是一次迭代更新,更是向机器人商业化落地迈出的关键一步。

从缩放法则到物理掌控

就在五个月前,Generalist 推出了 GEN-0,该模型首次有力地证明了支撑 GPT 等大语言模型(LLM)崛起的“缩放法则”(Scaling Laws)同样适用于机器人领域:更多的数据和算力会带来可预见的性能提升和泛化能力。虽然这是一个重要的学术里程碑,但当时的 GEN-0 还没准备好进入实战。

而 GEN-1 则是将这些参数推向极致的产物。它在更大规模的数据集上进行了训练——拥有超过 50 万小时的高保真物理交互数据,并辅以全新的算法改进。然而,真正的“秘密武器”在于数据来源。GEN-1 并没有完全依赖昂贵且难以规模化的远程操作(teleoperation)数据集,而是基于人类佩戴廉价可穿戴设备产生的数据。这为模型提供了一个丰富的预训练语料库,包含了现实世界的物理规律和人类直觉性的微小修正,而这些往往是模拟环境或远程操作所缺失的。

“我们相信 GEN-1 是第一个跨越关键门槛的通用物理 AI 模型:它解锁了广泛任务场景下的商业可行性,”该公司在公告中表示。

一个机器人手臂正精准地将智能手机装入包装盒,展示了极高的高速作业精度。

黄金三要素:可靠性、速度与即兴发挥

Generalist 将“精通”定义为三种关键能力的结合。其中前两种是工业自动化 60 年来的基石,而第三种则彻底改变了游戏规则。

可靠与速度:被强化后的工业基准

首先,数据表现令人惊叹。在长达数小时的压力测试中,搭载 GEN-1 的机器人连续装箱 1800 次无失误,折叠纸箱超过 200 次,甚至连续 200 次成功维护了一台扫地机器人——这种“机器人服侍机器人”的画面,要么是科技迷的终极梦想,要么就是某部特定惊悚片的开场。这些任务在无人工干预的情况下运行了数小时,成功率高达 99%。

其次是速度。GEN-1 驱动的机器人组装一个纸箱仅需 12.1 秒,而其前代产品需要约 34 秒。将手机装入保护壳仅需 15.5 秒,比之前快了 2.8 倍。这不只是简单地调快电机转速,而是模型通过经验学习并利用先进的推理技术,实现了比人类演示更高效的动作路径。

Video thumbnail

即兴发挥:智能的火花

可靠性和速度是固定在工厂地板上的工业机械臂的标配,但它们缺乏应对“意外”的能力——而现实世界偏偏拒绝按剧本演。这正是 GEN-1 的“即兴智能”大放异彩的地方。

Generalist 将其描述为一种涌现能力,一种“自由式问题解决”模式。在一次演示中,一个负责抓取汽车零件的机器人在操作时意外碰到了垫圈。它并没有像传统程序那样死机或报错,基于 GEN-1 的系统评估了现状并迅速做出调整:它可能会放下垫圈重新抓取,或者巧妙地利用槽位边缘来调整零件方向,甚至动用另一只手进行双臂协作。这些都不是预先编写的故障恢复程序,而是模型在训练分布之外即时生成的创新解决方案。这就是“自动化”与“自主化”的分水岭。

不仅仅是一个模型,而是一套系统

必须理解的是,GEN-1 并不只是一组模型权重。它是一个完整的系统,涵盖了预训练、后训练技术以及推理侧处理的全面创新。正是这种系统级的路径,使其具备了极高的数据效率,能够仅通过约一小时的新数据,同时适应新的机器人本体和新任务。

一个机器人手臂正在维护扫地机器人,展示了两台机器之间复杂的交互协作。

当然,GEN-1 并非实现物理 AGI 的万能灵药。公司也坦诚地指出了其局限性:并非所有任务都能达到 99% 以上的成功率,某些严苛的工业应用需要更高的可靠性。此外,涌现出的即兴发挥能力也带来了 AI 对齐的关键问题。一个能创造性解决问题的机器人固然很棒,但你得确保它的“创意方案”里不包括为了提高效率而在墙上撞出一个洞。

一对机器人手臂正协同折叠一件 T 恤,这是灵巧操作领域的一个经典挑战。

尽管如此,GEN-1 的发布依然是一个重大的里程碑。它进一步佐证了一个观点:利用海量的现实物理交互数据来缩放模型,是通往通用机器人的最可行路径。通过聚焦性能的“三位一体”——正确执行、快速执行以及在出错时知道该怎么办——Generalist 或许刚刚将那个“好用的、通用机器人”的梦想,向现实世界拽进了一大步。对我们而言,这不只是一个模型,它预示着物理世界终于要变得聪明起来了。