快讯
谷歌 DeepMind 放大招:新 AI 模型赋能机器人 “自学成才”
时间:2025-03-14 14:05
3 月 12 日晚间,谷歌 DeepMind 在机器人 AI 领域扔下 “重磅炸弹”,一口气推出两款新型 AI 模型,为机器人在现实世界中的应用带来了全新突破。
先来说说 Gemini Robotics,这是一款视觉语言行动模型,它的厉害之处在于,能让机器人在没有经过专门训练的情况下,迅速理解并适应全新的场景。Gemini Robotics 是基于谷歌的旗舰 AI 模型 Gemini 2.0 开发的,就像是给 Gemini 2.0 装上了 “现实行动” 的翅膀。
谷歌 DeepMind 机器人部门的高级总监 Carolina Parada 介绍,Gemini Robotics 借助 Gemini 2.0 强大的多模态理解能力,融入物理行动这一新模态,成功打通了 AI 与现实世界交互的通道。在通用性、互动性和灵活性这三个机器人高效运作的关键领域,Gemini Robotics 都取得了显著进展。它不仅能应对各种新情况,在与人类和周围环境互动时表现得更加出色,还能完成像折纸、开瓶盖这类精细的物理操作。
另一款 Gemini Robotics - ER(具象推理)模型也不容小觑,它被视为一种先进的视觉语言模型,具备 “理解复杂动态世界” 的能力。Parada 举例说,当我们准备装便当盒时,需要考虑桌上物品的摆放位置和操作方式,而 Gemini Robotics - ER 就是为解决这类推理任务而设计的。机器人专家可以通过它与现有的低级控制系统对接,为机器人解锁更多新功能。