灵驱2B世界模型登顶榜单，证明物理规律优于像素表现

在这场拼算力、堆参数的 GPU 军备竞赛中，现实版的“大卫挑战歌利亚”上演了。来自 AGIBOT（灵驱机器人）的一个仅有 20 亿参数（2B）的“小号”世界模型，刚刚在 WorldArena 榜单上完成了一次漂亮的“暴力屠榜”。这个名为 Genie Envisioner-Sim 2.0 (GE-Sim 2.0) 的模型目前高居榜首，俯视着那些曾占据聚光灯中心、体量庞大的生成式视频引擎。事实证明，生成一段漂亮的视频是一回事，教机器人如何不把毛巾叠得一团乱麻，则是完全不同的另一回事。

这可不是为了生成下一个刷屏的“猫片”。GE-Sim 2.0 是一个专为机器人实战设计的闭环物理模拟器，堪称机器人的“魔鬼训练营”。该系统展示了极强的“高一致性多视角生成”能力，确保机器人头部摄像头所见的画面，能与手腕摄像头捕捉到的画面完美同步——即便物体处于视觉盲区或镜子反射中也能应对自如。正是这种对细节近乎“强迫症”的追求，将真正有价值的仿真与单纯的“数字幻觉”彻底区分开来。

为了让模型更具实战价值，AGIBOT 针对仿真领域的三大瓶颈精准拆解。首先，他们引入了“本体感知状态专家”（Proprioceptive State Expert），能直接从视频中解码物理关节角度，为机器人提供关键反馈，避免机械动作陷入失控的混沌。其次，“基于 VLM 的世界裁判”（VLM-Based World Judge）充当了自动化裁判的角色，不知疲倦地为每一次仿真尝试打分，把人类工程师从枯燥的复核中解放出来。最后，通过分布匹配蒸馏框架，他们大幅压缩了推理时间，渲染一个复杂的 25 帧多视角序列仅需短短 2.3 秒。

为什么这很重要？

因为它是真的能“落地”。在 GE-Sim 2.0 过滤后的合成数据加持下，物理机器人在高频接触任务中的现实成功率飙升了 15%。这是破解具身智能（Embodied AI）数据瓶颈的关键一步。当其他模型还在追求视觉上的华丽辞藻时，AGIBOT 正在构建能够实操的物理世界模拟器，让机器人变得更聪明、更敏捷。那个仅仅追求“看起来真”的时代已经结束，“动起来真”的时代已经到来。

该项目目前已开源，硬核玩家可以直接深入技术细节。超链接：在 GitHub 上查看代码或在 arXiv 上阅读完整论文。

灵驱2B世界模型登顶榜单，证明物理规律优于像素表现

为什么这很重要？

向我们发送更正或建议

Gatsby 推出 150 美元人形机器人管家，为您清理公寓且无附加条件