风险投资正如潮水般涌入,YouTube 上的演示视频动辄斩获数百万播放量,而每过一个季度,厂商们许下的诺言就变得更加大胆。在目睹了 OpenAI 的 ChatGPT 仿佛一夜之间征服数字世界后,所有人都在问同一个价值千亿美金的问题:机器人领域何时才能迎来属于它的“ChatGPT 时刻”?
然而,两位深耕具身智能(Embodied AI)多年的老兵却给出了一个简单得令人心碎的答案:不会有那一刻。而且,你最好听听他们的理由。Agility Robotics(人形机器人 Digit 的幕后推手)联合创始人 Jonathan W. Hurst,以及曾领导 Google X 实验室 Everyday Robots 项目的 Hans Peter Brøndmo,最近共同撰文进行了一次急需的“现实校准”。他们给这股狂热的浪潮浇上了一桶工业级的冰冷冷却液,直言不讳地指出:没有什么单一的、奇迹般的 AI 突破能瞬间拯救世界。通往机器人普及之路,是由无数枯燥、繁琐、且一点都不“性感”的工程细节铺就的。
2024 年,机器人领域的风投资金从 2023 年的 51 亿美元飙升至 61 亿美元,赌注已经高到了天文数字。但正如 Hurst 和 Brøndmo 所言,华丽的演示视频与商业化、安全且可靠的机器人之间,依然隔着一道天堑。
视觉幻象:拆解 YouTube 上的“机器人秀”
我们都见过那样的视频:人形机器人完成完美的后空翻,跳起整齐划一的舞蹈,甚至表演一段行云流水的武术。最近的爆火案例是 Unitree Robotics(宇树科技)的机器人在 2026 年春晚舞台上的功夫表演,在距离台上的孩子仅几步之遥的地方展现了惊人的协调性。

但 Hurst 和 Brøndmo 迅速指出了业内人士心照不宣的事实:“永远不要相信 YouTube 上的机器人视频。”这些表演虽然在技术上令人赞叹,但本质上更像是机器人版的“百老汇歌舞剧”。它们展示了极高的低级电机控制(low-level motor control)和编排能力,但其自主化程度其实更接近流水线机器人,而非会思考的机器。现实世界——那个混乱、不可预测且拒绝按剧本演出的世界——完全是另一回事。这就是经典的“莫拉维克悖论”(Moravec’s paradox):对人类来说轻而易举的任务(比如在杂乱的房间里穿行)对机器人来说极其困难,而复杂的计算对它们来说却易如反掌。
数据:一场悬而未决的赫拉克勒斯级挑战
大语言模型(LLM)拥有一个巨大的先天优势:它们是在互联网这个由人类创造的、海量的文本和图像数据库中训练出来的。机器人则没有这种奢侈。要学习进化,机器人需要来自物理世界的数据,那是一个包含了关节角度、力量反馈、光照条件以及人类不可预测行为的高维空间。
这种挑战的规模是惊人的。在 Everyday Robots,Brøndmo 的团队在 2022 年运行了 2.4 亿次模拟机器人实例,仅仅是为了训练模型学会以还算体面的水平进行垃圾分类。而这仅仅是一项相对简单的技能。现在,请将这种努力乘以我们期望通用机器人完成的近乎无限的任务量。这是一个完全不同量级的数据采集难题,而且目前仍未得到根本解决。由于成本削减,该项目最终在 2023 年初被母公司 Alphabet 关停。
不会存在单一的“机器人大脑”
那种认为一个单一的、庞然大物般的 AI 模型就能操纵所有机器人(无论是轮式的、足式的、飞行的还是游泳的)的想法,纯属科幻小说。不同形态(embodiments)和环境的物理现实差异实在太大。作者认为,最终胜出的架构将是所谓的“代理式 AI”(Agentic AI)。这涉及到一个高层的协调模型,它负责推理、规划并分发任务给一系列更小、更专业的 AI 工具。一个模型负责双足行走,另一个负责精细操作,第三个则专门负责安全的人机交互。
他们认为,这种模块化的方法将引发智能机器的“寒武纪大爆发”。它不会是一次性的“大爆炸”,而是多样化、专业化能力的全面绽放。当这些能力被正确地编排在一起时,一个真正称职的机器才会诞生。
硬件:依然是令人痛苦的瓶颈
尽管所有的聚光灯都打在 AI 身上,但机器人本质上依然是一个物理实体。硬件,尤其是那些让机器人与世界互动的部件,依然是主要的瓶颈。大多数工业机器人使用刚性、强力的执行器,这在封闭的笼子里进行精密作业非常棒,但在人类环境中则是灾难。一次简单的意外碰撞都可能是致命的。
相比之下,人类是“柔顺”的。无论是把钥匙插进锁孔,还是扶着柜台稳住身体,我们一直在使用触觉和力量反馈。机器人要实现这一点,需要一类全新的执行器:灵敏、具备柔顺性(compliant)且能感知力量。虽然实验室里已经有了这些技术,但在规模、成本和可靠性上,还远未达到大规模部署的要求。如果身体是一个笨拙、危险的累赘,那么世界上最聪明的 AI 也无济于事。
真正的价值源于解决“简单”问题
最后一个,或许也是最重要的真相是:现实世界的价值并不来自后空翻,而是来自可靠地完成那些人类不想做的平庸、重复且繁重的体力活。这才是见真章的时候——或者说,是机器人的脚掌接触到仓库地板的时候。
两位作者都深有感触。当 Agility Robotics 开始与 GXO Logistics 等合作伙伴在客户现场部署 Digit 时,他们很快意识到,第一个重大障碍并不是任务执行能力,而是安全性。这导致了长达数年的工程努力,去重新设计机器人在人类空间中安全运行的方案。同样,Google 的 Everyday Robots 团队也亲身体会到,对于一个试图清理桌子的机器人来说,像办公室食堂这样看似简单的环境其实是多么混乱和困难。

这种实战经验是唯一的出路。它指引着 AI 架构的演进,暴露了硬件的缺陷,并将雄心勃勃的路线图拉回到客户需求的残酷现实中。没有哪种“银弹”算法或数据集可以替代那个缓慢、痛苦且昂贵的部署过程——在实际应用中观察失败,然后一丝不苟地通过工程手段解决问题。机器人的未来正在到来,但它将以一种审慎的、一步一个脚印的方式实现。
