多年来,机器人领域的故事一直都是:硬件惊艳,却苦等一颗“智慧大脑”。我们见过机械狗后空翻、工厂机械臂精准得令人着迷,但它们大多只是机械地重复着既定脚本。要是你让它们做点新花样?那多半会得到一串沉默的金属部件,以及相当于“一脸懵逼”的茫然回应。不过,看来那个时代,终于要画上一个刺耳又不太体面的句号了。
现在,请迎接来自Google DeepMind的新一代机器人——它们不再是只会按部就班的“自动机”,更像是……深思熟虑的“智能搭档”。在最近一次加州实验室参观中,这家公司展示了一批机器大军,它们不仅能看能做,更能在行动前进行理解、规划,甚至“思考”。这里的“秘密武器”并非更精密的齿轮或更强劲的马达,而是注入了与驱动其Gemini模型相同的强大AI。结果呢?这些机器人能以令人咋舌的灵巧帮你打包午餐,然后,又会非常有趣地、字面意义上地,拒绝以蝙蝠侠的身份完成这项任务。
力量背后的双核大脑
正如Google DeepMind机器人部门总监Keshkaro所解释的,这次根本性的转变在于:将机器人建立在大型视觉-语言-动作(VLA)模型之上。这些机器人不再被设定为完成特定任务的“专才”,而是被赋予了对世界的普遍理解。它们利用Gemini等模型中蕴含的庞大知识,以一种过去只存在于科幻小说的方式,去理解概念、物体和指令。
Google的这一架构,有效地赋予了机器人一个“双核大脑”:
- Gemini Robotics-ER(具身推理): 这就是机器人的“战略规划师”。当被赋予一个复杂且需要长远规划的任务——比如“按照当地回收规定清理这张桌子”——这个模型就会充当高层大脑。它甚至能像人类一样,利用Google搜索等工具查询必要信息,然后制定出一步步的计划。
- Gemini Robotics VLA(视觉-语言-动作): 这是机器人的“执行者”。它接收来自推理模型的简单、按顺序的指令,并将其转化为执行物理动作所需的精确电机命令。
这种精妙的分工,让机器人不再局限于“拿起积木”这类简单、短期的小动作,而是能够攻克需要真正解决问题能力的多步骤复杂目标。
思考,让一切成为可能
或许最引人入胜的突破,是将“思维链”(chain of thought)推理应用于物理动作。我们曾在语言模型中见过这种能力,要求AI“一步步思考”能显著提升其输出质量。如今,DeepMind也赋予了机器人“内心独白”的能力。在机器人采取行动之前,它会用自然语言生成一系列推理过程。
“我们让机器人在采取行动之前,先思考它即将执行的动作,”Keshkaro在视频导览中解释道,“仅仅是这种‘输出思考’的行为,就让机器人变得更加通用,性能也更出色。”
这可不是什么纸上谈兵的学术演练。强迫机器人阐明它的计划——比如“好的,我需要拿起面包,然后轻轻地把它放进Ziploc小袋子的开口里”——有助于它结构化那些人类凭直觉就能完成的复杂动作。这是一种奇异却又异常有效的涌现特性:想让机器人在物理任务上表现更出色,你得先教会它“自言自语”。
午餐已备好……终究会好的
俗话说,是骡子是马,拉出来遛遛——在这里,就是看那盒打包好的午餐。其中一个最引人注目的演示,涉及一台Aloha机器人手臂,它的任务是准备一个午餐盒。这项任务需要团队所谓的“毫米级精度”,尤其是在处理一个软塌塌的Ziploc袋子时。
看着机器人工作,简直就是一场当代顶尖技术的“大师课”。它令人印象深刻得不可思议,却又带着一丝迷人的不完美。机器人灵巧地捏开袋子,小心翼翼地把三明治放进去,然后又加入巧克力棒和葡萄。它会稍微笨拙一下,自我纠正,然后继续尝试——这与几年前那些脆弱、一出错就“歇菜”的机器人简直是天壤之别,正如主持人Hannah Fry回忆的,那些老家伙大多只会制造一堆破碎的乐高。这种灵巧并非来自僵硬的代码,而是通过遥操作的人类演示学习而来,操作员“化身”机器人,手把手地教它正确的动作。
“我无法以特定角色的身份执行动作”
当一个演示展示了机器人的灵巧性时,另一个则突出了其系统的泛化能力,以及它对语言那有趣又字面化的理解。当被要求“把绿色积木放到橙色托盘里,但要像蝙蝠侠那样做”时,机器人停顿了一下。
它那面无表情的机器人语音回答,简直是神来之笔:“我无法以特定角色的身份执行动作。不过,我可以帮你把绿色积木放到橙色托盘里。”
这段对话完美地捕捉了这些系统的强大之处和当前局限性。机器人完美地理解了核心指令,并果断抛弃了那些无意义的、风格化的“花哨”。它对动作和物体有着世界级的理解,但对于文化角色,则完全是一无所知。它是一个通用机器人,而不是一个方法派演员。
深入DeepMind实验室的这一瞥揭示,机器人领域终于迎来了它的“软件时刻”。通过利用大规模AI的巨大进步,Google正在为机器人打造一个能在现实世界中学习、适应和推理的平台。它们或许还没准备好模仿超级英雄,但它们已经能帮我们打包午餐了。对于任何一个早上匆匆忙忙出门的人来说,这也许就是最英勇的壮举了。






