来自 香港科技大学(HKUST)、IDEA研究院以及上海人工智能实验室的研究人员最近祭出了大动作,发布了名为 HumanX 的全栈框架。这个框架最“神”的地方在于,它能让通用人形机器人通过“刷视频”就能学会复杂的现实技能。无论是踢足球、打拳击还是搬运货物,机器人都不再需要程序员苦哈哈地去写那些繁琐、特定任务的奖励函数(reward programming)——而这正是长期以来困扰机器人开发的头号难题。
这套系统的“独门秘籍”在于一套将人类动作转化为机器人技能的两步走方案。首先,一个名为 XGen 的数据生成管线会分析人类的单目视频,将动作合成为符合物理规律的交互数据,并进行多样化增强。随后,一个名为 XMimic 的统一模仿学习框架会利用这些数据来训练机器人的策略模型,使其具备学习和泛化技能的能力。整套流程已在 Unitree G1 人形机器人上成功实现了“零样本迁移”(zero-shot transfer),这种从仿真环境到现实世界(sim-to-real)的丝滑部署,确实令人惊艳。
根据研究论文显示,这种方法的泛化成功率比之前的方案高出足足 8 倍。视频中展示的技能动态感十足,包括篮球场上的假动作跳投,以及流畅的人机足球传接球序列,动作衔接之自然,令人印象深刻。
为什么这很重要?
这是迈向“通用人形机器人”目标的关键一步。长期以来,机器人领域的最大瓶颈不在硬件,而在软件——确切地说,是那种需要为每一个细微动作编写代码的繁琐过程。而 HumanX 类的框架提出了一条激进的捷径:直接利用地球上最庞大、最多样化的物理任务数据库——也就是 YouTube、TikTok 以及各大视频平台上的海量素材来“喂”出机器人的技能。
如果不再需要工程师团队去逐行敲出“搬运箱子”的函数,而只需要给机器人看一段仓库工人的操作视频,这将是机器人开发范式的根本性转变。这种转变或许能让那些卡在实验室里的硬核硬件,真正兑现科幻电影里给出的承诺。













