超级“辅助”来了！谷歌推出通用AI：能听玩家指令，陪打游戏

齐鲁发表于 2024-3-15 14:23:47

https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F0315%2Fb5667404j00sadf4x001gd000sd00fyc.jpg&thumbnail=660x2147483647&quality=80&type=jpg

谷歌DeepMind带来了一款能够陪伴玩家打游戏、听从玩家指挥的AI。

当地时间3月13日，谷歌DeepMind推出了名为SIMA（Scalable Instructable Multiworld Agent，即可扩展、可指导、多世界的智能体）的AI智能体（AI Agent），将其称为全球首款能在广泛的3D虚拟环境和视频游戏中遵循自然语言指令的“通用AI智能体”。

AI能够帮助玩家打游戏早已不是什么新鲜事，但这款SIMA的不同之处在于，它并不会通过“后台操作”来让玩家单纯地在游戏中获得胜利，而是会像“伙伴”一样听从玩家用自然语言给出的指令，在多种3D游戏中辅助玩家完成复杂任务。

为了训练出能够适应不止一款游戏的通用型游戏AI，DeepMind与多家游戏开发商建立了合作关系，在《无人深空》《模拟山羊3》《幸福工厂》等九款在玩法和操作上截然不同的视频游戏中对SIMA进行了训练和测试。DeepMind为SIMA展示了玩家组合游玩不同游戏以及自由游玩的录像，通过大量数据的输入来让SIMA归纳出常见的玩家操作，以及语言和行为之间的联系。

https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F0315%2F9aefe72dj00sadf4x004qd001ne00o8c.jpg&thumbnail=660x2147483647&quality=80&type=jpg

SIMA的训练过程。来源：DeepMind官网

此外，DeepMind还用到了四个研究环境，其中包括用Unity创建的一个新环境，名为“the Construction Lab”。在这个环境中，智能体需要使用积木构建雕塑，以测试它们对物体的操纵能力和对物理世界的理解。

在整体架构上，SIMA将预训练视觉模型与自监督学习的Transformer相结合，从用户那里接收语言指令，并从环境中获取图像观察结果，然后将它们输出为键盘和鼠标动作，以操控游戏中的角色。

这意味着，SIMA不需要访问游戏的源代码，也不需要定制的API来使用，仅需要屏幕上的图像和用户提供的自然语言指令这两个输入，就能够与任何潜在虚拟环境进行交互。

DeepMind表示：“SIMA是一个AI智能体，能够感知和理解各种环境，并采取行动来实现指定的目标。它包括一个设计用于精确图像语言映射的模型，以及一个用于预测屏幕上接下来会发生什么的视频模型。我们利用SIMA所涉及的特定3D设置的数据来微调这些模型。”

据介绍，当前版本的SIMA已经在600种基本技能上获得评估，涵盖导航（例如“向左转”）、物体交互（“爬梯子”）和菜单使用（“打开地图”）等。经过DeepMind的训练，SIMA已经能执行可以在约10秒内完成的简单任务。最终，SIMA将学会如何游玩任何视频游戏，甚至是没有线性结束路径的游戏和开放世界游戏。

https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F0315%2Fe85af296j00sadf4y00nrd000nx00hmc.jpg&thumbnail=660x2147483647&quality=80&type=jpg

SIMA掌握的部分游戏技能。来源：DeepMind官网

在评估测试中，研究人员让SIMA在九个3D游戏集上接受训练，其表现显著优于仅在单个游戏上专门训练的智能体，并且在未训练过的游戏中的表现和专门使用该游戏数据集训练过的智能体表现一样好，证明了SIMA在全新环境中具备泛化能力。

毫无疑问，SIMA显示出，AI在游戏中的表现依然很有潜力。或许在不久的将来，由AI驱动的NPC（非游玩角色）也能真正做到像人类一样陪伴玩家进行游戏，而不再只会按照既定的代码运行。

就在上个月，DeepMind团队还展示了基础世界模型Genie，可根据合成图像、照片、草图生成动作可控的2D世界。其模型参数只有110亿，根据人类玩2D平台类游戏的20多万小时视频进行无监督训练。不过Genie生成的“游戏”画质很糊，离实时可玩还很远。

页: [1]

齐鲁信息网's Archiver

超级“辅助”来了！谷歌推出通用AI：能听玩家指令，陪打游戏