Google DeepMind 又向世界投下了震撼弹,近日该团队发表 Genie,这是一种靠网路影片训练出来的 AI 生成模型,可以单靠文字、图片、影片甚至是手绘草图,生成出真正可以游玩、可以互动的虚拟游戏世界。
Genie (Generative Interactive Environments 的缩写,即生成式可互动环境)模型是透过公开的、长达 200,000 小时的线上网路影片进行训练,目前仅是一个提供预览的研究。由 Genie 生成的游戏目前看来是 2D 平台游戏为主。
虽然 Genie 目前还未向公众开放,不过未来使用者有可能可以透过和手机中的 Android 助理要求:「我要玩一款闪躲吸血鬼的游戏」,手机即能为使用者自动生成出来。
更为重要的是,Genie 是在无人监督的情况下,使用未进行动作标记的影片来进行训练的,但它却能学习网路影片中各种角色的运动、控制与动作,这代表 AI 可以对现实世界的物理有更深入的理解,也代表 Genie 学习到的动作,未来有可能有助於实体机器人更好地理解并与身边环境互动。
Google DeepMind 开发者 Tim Rocktäschel 在 X 上表示,虽然 Genie 擅长从文字或图片来创造一个虚拟 2D 世界,但它可以做到的不仅仅是打造游戏而已,还有包括向其他 AI 模型或超级助理(agents)传授有关 3D 世界知识潜力。
「我们在没有动作资讯的机器人控制模型(RT-1)上训练 Genie,并证明我们也可以在那里学习并打造出一个可控制动作的模拟器。我们认为这是迈向 AGI 通用世界模型充满希望的一大步」。言下之意,未来即使在数据缺乏明确动作指令的情况下,这些实体机器人也能在现实世界中完成从没被训练过的任务。
Google 不是第一次透过网路影片来训练 AI,今年稍早,DeepMind Robotics 团队就宣布了名为 AutoRT,可结合大型基础模型(例如大型语言模型,LLM)或视觉语言模型(VLM)与机器人控制模型(RT-1 或 RT-2)来达到不同的任务目的。
核稿编辑:Jocelyn
快加入 INSIDE Google News 按下追踪,给你最新、最 IN 的科技新闻!