多年来,机器人行业一直遵循着一个简单却令人沮丧的假设:先造机器人,再为它量身定制一个大脑。换个机械臂?换套轮子?执行新任务?抱歉,请从头再来。这种耗时费力、一次性的方法,造就了一支庞大的“专才”大军,却培养不出一个真正的“通才”。这正是为什么你的Roomba扫地机器人无法为你做三明治,而工厂里的机械臂也无法帮你遛狗的原因。但如果有一种AI,能学会操控它们所有呢?
这正是Google DeepMind大胆的目标,机器人团队负责人Carolina Parada正在那里悄然掀起一场革命。在最近接受The Humanoid Hub的一次深度采访中,Parada描绘了一个愿景:用通用、自适应的智能取代定制编程。她表示,团队的“北极星”目标,正是“在物理世界中解决AGI(通用人工智能)”。当2022年全世界都被ChatGPT的“诗意”所迷惑时,Parada指出她的团队却不那么惊讶,因为他们内部早已在研究大型语言模型。她认为,真正的教训是看到了将研究成果交到公众手中的巨大价值。
Gemini的大脑,机器人的躯体
推动这一雄心壮志的引擎,正是Gemini Robotics 1.5,DeepMind具身AI基础模型的最新迭代。这可不是一个简单塞进底盘里的聊天机器人。它是一个真正的视觉-语言-动作(VLA)模型,从底层设计,旨在感知、推理并在混乱、不可预测的物理世界中采取行动。正如谷歌所描述的,“Gemini Robotics增加了对物理空间进行推理的能力——让机器人能够在真实世界中采取行动。”
1.5版本的升级聚焦于三大支柱:泛化能力、交互性和灵巧性。更重要的是,它引入了DeepMind所谓的“物理智能体”。该系统采用一个两部分组成的大脑:
- Gemini Robotics-ER 1.5:这个“具身推理”(Embodied Reasoning)模型充当战略规划师。它接收一个复杂的指令,比如“清理洒出的东西”,并将其分解为逻辑步骤。它甚至可以使用谷歌搜索等工具来查找它不掌握的信息。
- Gemini Robotics 1.5 (VLA):这便是“运动皮层”,它接收来自推理模型的逐步计划,并将其转化为精确的物理动作,适用于它所处的任何机器人身体。
这种架构允许机器人“三思而后行”,通过生成内心独白来推理问题,从而使其决策更加透明,坦白地说,也更加智能。
圣杯降临:跨具身迁移
然而,最重大的飞跃是Parada所说的“跨具身迁移”。其核心思想是,一个机器人学到的技能可以无缝地迁移到一台完全不同的机器上,无需重新训练。“它确实是同一套权重,适用于所有机器人,”Parada解释道,指的是在双臂ALOHA、Franka机器人和Apptronik的Apollo人形机器人等截然不同的平台上进行的测试。
这彻底颠覆了行业惯例。一个轮式机器人学到的任务,理论上可以指导一个人形机器人如何执行类似动作。这正是打破单平台开发无休止循环的关键。“我们坚信未来将有一个非常广泛、极其丰富的生态系统,包含多种不同类型的机器人,”Parada表示。“如果我们说要解决物理世界中的AI问题,对我们而言,这意味着它必须足够智能,能够具身于任何机器人。”
这一概念建立在DeepMind此前与RT-X等模型合作的基础上,RT-X从33个学术实验室的22种不同机器人类型中汇集了海量数据集进行训练。该项目表明,在多样化硬件上进行协同训练赋予了模型涌现能力和对空间关系的更好理解。Gemini Robotics 1.5似乎是这一原理的超强进化版。
时间线的悄然加速
对于机器人专家而言,机器能简单地观察人类并学习的梦想,一直以来都遥不可及。“以前,团队里的每个人都觉得,‘啊,这得在我职业生涯结束后才能实现’,”Parada承认。“而现在我们正在讨论,这到底还有多远?五年?还是十年?”
这种加速是显而易见的。虽然Parada承认人形机器人是一种“重要的外形因素”,因为它们是为我们的世界设计的,但她反驳了它们是唯一重要外形因素的观点。DeepMind的愿景是硬件无关的。智能才是产品,而非它所占据的金属外壳。
终极挑战是什么?我们的家。Parada认为家庭将是机器人领域的“最后疆域之一”,正是因为它如此非结构化且混乱。工厂车间是可预测的;而一个家庭厨房则绝非如此。
一脑驭万机
DeepMind的战略代表了一项根本性赌注:机器人技术的未来不在于更好的硬件,而在于更通用、可扩展的智能。通过将AI“大脑”与机器人“身体”解耦,他们旨在创建一个基础模型,能够同时从每个机器人学习,在全球机器集群中累积其知识。
这种方法最终有望打破数十年来束缚该领域“一机一脑”的瓶颈。我们得到的不仅仅是一个更智能的机器人;我们正在见证一个通用驾驶员的诞生,它随时准备具身于我们能制造的任何机器。《摩登家族》里的机器人管家,看来是向前迈出了巨大、跨具身的一步。






