世界第一个 AI 生成游戏模型！Google DeepMind 发表 Genie

Google DeepMind 又向世界投下了震撼弹，近日该团队发表 Genie，这是一种靠网路影片训练出来的 AI 生成模型，可以单靠文字、图片、影片甚至是手绘草图，生成出真正可以游玩、可以互动的虚拟游戏世界。

Genie （Generative Interactive Environments 的缩写，即生成式可互动环境）模型是透过公开的、长达 200,000 小时的线上网路影片进行训练，目前仅是一个提供预览的研究。由 Genie 生成的游戏目前看来是 2D 平台游戏为主。

虽然 Genie 目前还未向公众开放，不过未来使用者有可能可以透过和手机中的 Android 助理要求：「我要玩一款闪躲吸血鬼的游戏」，手机即能为使用者自动生成出来。

更为重要的是，Genie 是在无人监督的情况下，使用未进行动作标记的影片来进行训练的，但它却能学习网路影片中各种角色的运动、控制与动作，这代表 AI 可以对现实世界的物理有更深入的理解，也代表 Genie 学习到的动作，未来有可能有助於实体机器人更好地理解并与身边环境互动。

Google DeepMind 开发者 Tim Rocktäschel 在 X 上表示，虽然 Genie 擅长从文字或图片来创造一个虚拟 2D 世界，但它可以做到的不仅仅是打造游戏而已，还有包括向其他 AI 模型或超级助理（agents）传授有关 3D 世界知识潜力。

「我们在没有动作资讯的机器人控制模型（RT-1）上训练 Genie，并证明我们也可以在那里学习并打造出一个可控制动作的模拟器。我们认为这是迈向 AGI 通用世界模型充满希望的一大步」。言下之意，未来即使在数据缺乏明确动作指令的情况下，这些实体机器人也能在现实世界中完成从没被训练过的任务。

Google 不是第一次透过网路影片来训练 AI，今年稍早，DeepMind Robotics 团队就宣布了名为 AutoRT，可结合大型基础模型（例如大型语言模型，LLM）或视觉语言模型（VLM）与机器人控制模型（RT-1 或 RT-2）来达到不同的任务目的。

核稿编辑：Jocelyn

快加入 INSIDE Google News 按下追踪，给你最新、最 IN 的科技新闻！