效率飙升8倍！RoboClaw 为机器人装上“撤销键”，加速迈向自主学习 | RoboHorizon Robot Magazine

机器人训练，在很大程度上其实是一场摧残意志的体力活。为了让机器人学会一个简单的动作，人类教练往往得在旁边像“保姆”一样盯着——机器人每失败一次，人就得跑过去手动把现场复原一次。这种低效的循环，正是阻碍通用机器人大规模进化的核心痛点。

现在，来自 AgiBot（智元机器人）、新加坡国立大学以及上海交通大学的研究团队推出了一个名为 RoboClaw 的新框架，试图终结这场噩梦。它的核心逻辑简单到令人拍案叫绝：教机器人学会那项它们一直缺失的关键技能——自己收拾烂摊子。

RoboClaw 引入了一个名为“纠缠动作对”（Entangled Action Pairs, EAP）的概念。其核心思路是：机器人每学习一个“正向”技能（比如把口红插进收纳架），就必须同时学会对应的“反向”技能（把口红再拿出来）。这两个动作构成了一个自我复位的闭环，让机器人能够自主练习、自主“回档”并重复尝试，全程不断采集数据。从此，人类教练终于可以从这种无休止的“手动重置”中解脱出来了。

从实验结果来看，这种“放养式”训练的效果惊人。研究报告显示，在训练过程中，人工干预次数减少了 8 倍，每个数据集所需的总人力成本降低了 2.16 倍。而在处理复杂的多步任务时，其成功率比基准模型高出 25%。在针对梳妆台整理任务的测试中，机器人展现出了极强的自主性，不仅学会了如何精准放置各种化妆品，甚至还能在出错后自我修正。

为什么这很重要？

这次突破的真正意义不仅在于那个“自动复位”的圈子，而是在于它实现了“训推一体”。在传统的机器人系统中，数据采集、模型训练和实地部署通常是脱节的。而 RoboClaw 将这三者统一到了一个由 Vision-Language-Model (VLM) 驱动的控制器之下。

这意味着，当机器人在现实任务中翻车时，那个“失败”不再仅仅是一个需要人类去修理的错误，而是会被直接转化为新鲜的训练数据，喂回给系统。机器人在实战中“吃一堑长一智”，形成了一个持续进化的闭环。这标志着机器人技术正在从刻板的、预设程序的自动化，向真正具备自主意识、能在复杂环境中自我迭代的“智能体”进化。

相关链接：在 arXiv 阅读完整论文

为什么这很重要？

机器人完美翻墙：OmniRetarget技术突破

人工智能机器人在摩托车特技表演中胜过人类

VR控制的炮塔：机甲战争的黎明

CARA: 绳索驱动机器狗的革命

AGIBOT发布受哪吒启发的X2-N人形机器人，可变身轮式移动

爆炸性消息：NVIDIA组建精英人形机器人团队，由Jim Fan领导

无聊公司实现自动化隧道挖掘里程碑

Neura MiPa：首款可预订的家用机器人正式亮相

UGOKU Pad为陀螺仪设备Gen2带来智能手机控制功能

Loki Robotics的清洁机器人解决办公室繁琐任务

EngineAI推出PM01人形机器人，售价仅13,700美元

欧洲机器人战略：开放但不天真

美国社会眼中AI与机器人的共同点是什么？它们都是不必要的