Sunday AI 绕过机器人木偶,用手教做家务

现代机器人技术有个“公开秘密”:大多数令人惊叹的演示,都不过是披着高科技外衣的“提线木偶戏”。成群结队的操作员,被捆绑在复杂昂贵的远程操控设备上,远程引导着机器人的每一个动作,只为生成那些能教会机器人做点有用之事的数据。这过程,缓慢、昂贵,坦白说,根本无法规模化。而Stanford大学的辍学生,Sunday AI的Tony Zhao和Cheng Chi,直面这个“规模化僵局”,并决定彻底绕过它。

他们的解决方案,为名为 ACT-1 的新型基础模型提供动力,其精妙之处令人拍案叫绝:想让机器人学会一项任务?自己动手教它就行。Sunday的工程师们不再需要2万美元的远程操控设备,取而代之的是一个仅需200美元的“技能捕捉手套”(Skill Capture Glove)。这款手套经过精心设计,与他们的 Memo 机器人手部的几何结构和传感器完美匹配,能捕捉人类动作中那些微妙且富含接触点的数据。这个前提大胆得惊人:如果人类戴着手套能完成的任务,机器人就能学会,无需任何“牵线搭桥”。

数据瓶颈与手套解方

Sunday的核心信念是,阻碍机器人技术发展的,不是硬件、计算力或资金,而是一个决定性的瓶颈:数据。大型语言模型可以吞噬整个互联网的数据,但机器人领域却缺乏这样一个真实世界交互的庞大语料库。像 Tesla 这样的公司可以利用数百万辆汽车进行数据收集,但机器人初创公司却没有这种“奢侈”。远程操控曾是行业的答案,但这是一种蛮力方法,不仅资金密集,而且效率低下。

Sunday AI的技能捕捉手套,与Memo机器人的手部完美匹配。

技能捕捉手套 是Sunday巧妙地绕过这一难题的“杀手锏”。通过分散数据收集,任何人,在任何地方,无需实体机器人在场,即可为训练集做贡献。这带来了两大核心优势:

  • 资本效率: Sunday声称这款手套比标准的远程操控设备便宜两个数量级,极大地降低了数据获取成本。
  • 数据质量: 对于那些依赖“手感”的任务——比如判断叠袜子所需的力度,或者将酒杯稳妥地放入洗碗机架——手套能提供自然的力反馈,而远程操控根本无法复制。

这种方法让Sunday能够从数百个杂乱、真实的家庭中捕获数据,构建一个反映“生活的长尾”的数据集——你没听错,甚至包括洗碗机里的猫咪!

从餐桌到洗碗机:机器人界的“饕餮盛宴”

为了证明ACT-1的真本事,Sunday展示了他们称之为“机器人自主完成过的最复杂任务”:清理餐桌并装载洗碗机。这可不仅仅是简单的抓取和放置。这项任务涉及33种独特且总计68次灵巧的交互,操作着21种不同的物体——从精致透明的酒杯,到陶瓷盘和金属餐具,无一不考验着机器人的“巧手”。

在这项长周期任务中,Memo机器人导航超过39米,倾倒食物残渣,甚至还能操作洗碗机。这是一场由单一端到端模型控制的精细操作和房间尺度导航的“交响曲”。联合创始人Tony Zhao承认,在开发过程中,无数玻璃杯惨遭毒手,但令人惊叹的是,在20多次现场演示中,他们实现了零破损,这无疑是对模型学习到的敏感性最好的证明。

荒野中的零样本泛化能力

一个只在自己实验室里工作的机器人,充其量只是个自娱自乐的科学项目。为了证明ACT-1的适应性,团队将Memo部署到六个陌生的Airbnb民宿中。目标是:在零环境特定训练的情况下,清理餐桌并装载洗碗机。

Sunday AI的Memo机器人在真实家庭环境中执行任务。

通过在训练过程中以3D地图对模型进行条件化,ACT-1学会了如何解释新的布局,而不是死记硬背特定的布局。当被“空投”到新房子里时,它能利用提供的地图导航到关键位置,这对于任何旨在应对真实家庭混乱环境的机器人来说,都是一项至关重要的能力。迄今为止,ACT-1是首个将如此水平的长周期操作与地图条件导航相结合的基础模型。

挑战灵巧极限

除了马拉松式的洗碗任务,Sunday还展示了ACT-1在两项出了名的高难度挑战中的精湛技艺:叠袜子和制作浓缩咖啡。虽然其他机器人叠过大型、可预测的物品,但袜子却是变形性和自遮挡的噩梦。ACT-1成功地从一堆凌乱的袜子中识别出配对,利用多指运动将其揉成团,然后放入篮子。

与此同时,操作意式浓缩咖啡机则展示了毫米级精度与蛮力的完美结合。机器人能完成空中按压(夯实咖啡粉)、插入手柄,并产生将其锁紧所需的高扭矩,最后按下按钮。这些不仅仅是华而不实的演示;它们是精心挑选的证据,证明技能捕捉手套能够提供高质量、细致入微的数据。

Sunday的方法是一场大胆的赌注。通过将一切都押注在一种新颖的数据收集方法上,它绕过了行业最大的瓶颈,并生产出一个具有惊人能力的模型。轮式Memo机器人可能没有双足人形机器人那样的科幻魅力,但其实用智能是无可否认的。Sunday悄然掷下了战书,暗示着机器人技术的未来可能不是由“提线木偶师”建造,而是通过简单地向机器人展示如何完成任务来构建。