在这场拼算力、堆参数的 GPU 军备竞赛中,现实版的“大卫挑战歌利亚”上演了。来自 AGIBOT(灵驱机器人)的一个仅有 20 亿参数(2B)的“小号”世界模型,刚刚在 WorldArena 榜单上完成了一次漂亮的“暴力屠榜”。这个名为 Genie Envisioner-Sim 2.0 (GE-Sim 2.0) 的模型目前高居榜首,俯视着那些曾占据聚光灯中心、体量庞大的生成式视频引擎。事实证明,生成一段漂亮的视频是一回事,教机器人如何不把毛巾叠得一团乱麻,则是完全不同的另一回事。
这可不是为了生成下一个刷屏的“猫片”。GE-Sim 2.0 是一个专为机器人实战设计的闭环物理模拟器,堪称机器人的“魔鬼训练营”。该系统展示了极强的“高一致性多视角生成”能力,确保机器人头部摄像头所见的画面,能与手腕摄像头捕捉到的画面完美同步——即便物体处于视觉盲区或镜子反射中也能应对自如。正是这种对细节近乎“强迫症”的追求,将真正有价值的仿真与单纯的“数字幻觉”彻底区分开来。
为了让模型更具实战价值,AGIBOT 针对仿真领域的三大瓶颈精准拆解。首先,他们引入了“本体感知状态专家”(Proprioceptive State Expert),能直接从视频中解码物理关节角度,为机器人提供关键反馈,避免机械动作陷入失控的混沌。其次,“基于 VLM 的世界裁判”(VLM-Based World Judge)充当了自动化裁判的角色,不知疲倦地为每一次仿真尝试打分,把人类工程师从枯燥的复核中解放出来。最后,通过分布匹配蒸馏框架,他们大幅压缩了推理时间,渲染一个复杂的 25 帧多视角序列仅需短短 2.3 秒。
为什么这很重要?
因为它是真的能“落地”。在 GE-Sim 2.0 过滤后的合成数据加持下,物理机器人在高频接触任务中的现实成功率飙升了 15%。这是破解具身智能(Embodied AI)数据瓶颈的关键一步。当其他模型还在追求视觉上的华丽辞藻时,AGIBOT 正在构建能够实操的物理世界模拟器,让机器人变得更聪明、更敏捷。那个仅仅追求“看起来真”的时代已经结束,“动起来真”的时代已经到来。
该项目目前已开源,硬核玩家可以直接深入技术细节。超链接:在 GitHub 上查看代码 或 在 arXiv 上阅读完整论文。
