业内专家：机器人领域不会迎来 ChatGPT 时刻。这就是原因。

风险投资正如潮水般涌入，YouTube 上的演示视频动辄斩获数百万播放量，而每过一个季度，厂商们许下的诺言就变得更加大胆。在目睹了 OpenAI 的 ChatGPT 仿佛一夜之间征服数字世界后，所有人都在问同一个价值千亿美金的问题：机器人领域何时才能迎来属于它的“ChatGPT 时刻”？

然而，两位深耕具身智能（Embodied AI）多年的老兵却给出了一个简单得令人心碎的答案：不会有那一刻。而且，你最好听听他们的理由。Agility Robotics（人形机器人 Digit 的幕后推手）联合创始人 Jonathan W. Hurst，以及曾领导 Google X 实验室 Everyday Robots 项目的 Hans Peter Brøndmo，最近共同撰文进行了一次急需的“现实校准”。他们给这股狂热的浪潮浇上了一桶工业级的冰冷冷却液，直言不讳地指出：没有什么单一的、奇迹般的 AI 突破能瞬间拯救世界。通往机器人普及之路，是由无数枯燥、繁琐、且一点都不“性感”的工程细节铺就的。

2024 年，机器人领域的风投资金从 2023 年的 51 亿美元飙升至 61 亿美元，赌注已经高到了天文数字。但正如 Hurst 和 Brøndmo 所言，华丽的演示视频与商业化、安全且可靠的机器人之间，依然隔着一道天堑。

视觉幻象：拆解 YouTube 上的“机器人秀”

我们都见过那样的视频：人形机器人完成完美的后空翻，跳起整齐划一的舞蹈，甚至表演一段行云流水的武术。最近的爆火案例是 Unitree Robotics（宇树科技）的机器人在 2026 年春晚舞台上的功夫表演，在距离台上的孩子仅几步之遥的地方展现了惊人的协调性。

但 Hurst 和 Brøndmo 迅速指出了业内人士心照不宣的事实：“永远不要相信 YouTube 上的机器人视频。”这些表演虽然在技术上令人赞叹，但本质上更像是机器人版的“百老汇歌舞剧”。它们展示了极高的低级电机控制（low-level motor control）和编排能力，但其自主化程度其实更接近流水线机器人，而非会思考的机器。现实世界——那个混乱、不可预测且拒绝按剧本演出的世界——完全是另一回事。这就是经典的“莫拉维克悖论”（Moravec’s paradox）：对人类来说轻而易举的任务（比如在杂乱的房间里穿行）对机器人来说极其困难，而复杂的计算对它们来说却易如反掌。

数据：一场悬而未决的赫拉克勒斯级挑战

大语言模型（LLM）拥有一个巨大的先天优势：它们是在互联网这个由人类创造的、海量的文本和图像数据库中训练出来的。机器人则没有这种奢侈。要学习进化，机器人需要来自物理世界的数据，那是一个包含了关节角度、力量反馈、光照条件以及人类不可预测行为的高维空间。

这种挑战的规模是惊人的。在 Everyday Robots，Brøndmo 的团队在 2022 年运行了 2.4 亿次模拟机器人实例，仅仅是为了训练模型学会以还算体面的水平进行垃圾分类。而这仅仅是一项相对简单的技能。现在，请将这种努力乘以我们期望通用机器人完成的近乎无限的任务量。这是一个完全不同量级的数据采集难题，而且目前仍未得到根本解决。由于成本削减，该项目最终在 2023 年初被母公司 Alphabet 关停。

不会存在单一的“机器人大脑”

那种认为一个单一的、庞然大物般的 AI 模型就能操纵所有机器人（无论是轮式的、足式的、飞行的还是游泳的）的想法，纯属科幻小说。不同形态（embodiments）和环境的物理现实差异实在太大。作者认为，最终胜出的架构将是所谓的“代理式 AI”（Agentic AI）。这涉及到一个高层的协调模型，它负责推理、规划并分发任务给一系列更小、更专业的 AI 工具。一个模型负责双足行走，另一个负责精细操作，第三个则专门负责安全的人机交互。

他们认为，这种模块化的方法将引发智能机器的“寒武纪大爆发”。它不会是一次性的“大爆炸”，而是多样化、专业化能力的全面绽放。当这些能力被正确地编排在一起时，一个真正称职的机器才会诞生。

硬件：依然是令人痛苦的瓶颈

尽管所有的聚光灯都打在 AI 身上，但机器人本质上依然是一个物理实体。硬件，尤其是那些让机器人与世界互动的部件，依然是主要的瓶颈。大多数工业机器人使用刚性、强力的执行器，这在封闭的笼子里进行精密作业非常棒，但在人类环境中则是灾难。一次简单的意外碰撞都可能是致命的。

相比之下，人类是“柔顺”的。无论是把钥匙插进锁孔，还是扶着柜台稳住身体，我们一直在使用触觉和力量反馈。机器人要实现这一点，需要一类全新的执行器：灵敏、具备柔顺性（compliant）且能感知力量。虽然实验室里已经有了这些技术，但在规模、成本和可靠性上，还远未达到大规模部署的要求。如果身体是一个笨拙、危险的累赘，那么世界上最聪明的 AI 也无济于事。

真正的价值源于解决“简单”问题

最后一个，或许也是最重要的真相是：现实世界的价值并不来自后空翻，而是来自可靠地完成那些人类不想做的平庸、重复且繁重的体力活。这才是见真章的时候——或者说，是机器人的脚掌接触到仓库地板的时候。

两位作者都深有感触。当 Agility Robotics 开始与 GXO Logistics 等合作伙伴在客户现场部署 Digit 时，他们很快意识到，第一个重大障碍并不是任务执行能力，而是安全性。这导致了长达数年的工程努力，去重新设计机器人在人类空间中安全运行的方案。同样，Google 的 Everyday Robots 团队也亲身体会到，对于一个试图清理桌子的机器人来说，像办公室食堂这样看似简单的环境其实是多么混乱和困难。

这种实战经验是唯一的出路。它指引着 AI 架构的演进，暴露了硬件的缺陷，并将雄心勃勃的路线图拉回到客户需求的残酷现实中。没有哪种“银弹”算法或数据集可以替代那个缓慢、痛苦且昂贵的部署过程——在实际应用中观察失败，然后一丝不苟地通过工程手段解决问题。机器人的未来正在到来，但它将以一种审慎的、一步一个脚印的方式实现。