栏目导航
地方资讯
您当前的位置 :主页 > 地方资讯 >
超参数推出自研AI游戏首次将深度学习应用于小游戏
发布日期:2021-08-16 14:52   来源:未知   阅读:

  2021三亚互联网信息产业春季专场招聘会举办,历经3个多月的开发与调试,这款被深度学习AI加持的小游戏在上线后很快突破了冷启动阶段的匹配瓶颈,在没有买量和推广的情况下达到了3万+的日活,并且仍在快速增长。

  以这样一个小而小游戏为试验田,我们观察到了将AI技术应用于多人在线竞技游戏的巨大潜力。

  《轮到你了揭秘篇》的设计灵感来自去年热播的同名日剧,玩法类似于《阿瓦隆》、《狼人杀》等身份推理类桌游。

  1)5名玩家会共度5个夜晚,其中“好人”方包括2位住民、1位目击者,“狼人”方包括2位捣乱者。

  2)玩家每晚轮流提案要监控哪些人,被监控者无法行动,未被监控的捣乱者可以选择是否恶作剧。

  3)满3晚恶作剧则捣乱者获胜,满3晚平安夜(且目击者没被捣乱者找出)则“好人方”获胜。

  为适配小游戏的特殊场景,我们在游戏中创新性地摒弃了语言线索,让玩家专注于事实线索,在不说话的情况下进行推理,用简化的游戏流程来满足碎片化场景下的游戏需求。

  虽然本作的上手门槛很低,但核心玩法却有相当的策略深度。 每局的游戏体验会随着参与者水平和风格的变化而显著变化,产生了可供反复体验的随机性与多样性,也增加了玩家对成长性的追求。

  本作的玩法来源于桌游。 经历电子化改造后,传统线下桌游存在的组局难、上手慢、耗时长等痛点得到了一定程度缓解,但核心的冷启动匹配问题始终未被解决—— 桌游玩家本身是小众群体,PVP用户量不足以形成网络效应,而PVE玩法又依赖于人机的设计。 现阶段来看,操作单一的行为树人机无法满足需求,尤其在多人对抗游戏中,人机常常扮演“猪队友”,伤害用户体验。

  在这样的背景下,我们试图用深度学习AI来解决冷启动匹配问题,并围绕AI来设计玩法。 我们要求AI能达到如下标准:

  AI的表现需要符合人类玩家的常态www.dp4h.cn。其他玩家无法分辨AI与真人。 AI的操作有一定多样性——大部分是“常规操作”,偶尔也会犯下低级失误或打出“神之一手”。

  不同段位的AI能明显体现出符合该段位的水平。 比如低等级AI失误率更高,逻辑链简单; 而高等级AI有更多套路,推理/反推理能力更强,各身份下胜率也普遍更高。

  不同风格的AI在相同局面下会采取截然不同的行动。 以捣乱者为例:冲锋型AI可能开局直接捣乱,力图快攻取胜; 而猥琐型AI则可能连续潜水,甚至打出“双狼平安夜”,到后三轮再连续捣乱。

  我们希望将满足上述标准的AI引入到游戏中,实现桌游玩法的AI化改造。 通过大量行为拟人的、符合目标玩家段位的、具备多样化风格的AI“虚拟玩家”,来解决核心的冷启动匹配问题。

  本作是一款非对称性、非完美信息的博弈类游戏,给AI设计提出了很大的挑战。 与传统的多智能体问题不同,AI不仅要学习在没有直接通信下的合作能力,甚至还要学习应该与谁进行合作、与谁进行对抗。 同时,AI还需要学习伪装、欺骗等高级策略,以及复杂的推理能力。

  与传统的“击败最强人类”的目标不同,我们的AI旨在追求拟人性,以及差异化的段位能力和风格,从而实现AI的产品化落地。 为此,我们创新地提出了一整套行之有效的AI实现路径。

  当游戏还未正式上线时,无法获得大量的玩家数据。 为此,我们提出了从小样本中进行模仿学习的深度学习算法。 该模型可以实现初步的行为操作和基本策略。 但由于数据量少且没有分级,无法满足不同段位和风格的AI需求。 于是,在模仿学习的基础上,我们通过强化学习来进一步提高AI的能力,并获得不同的风格。

  游戏中的隐藏信息主要体现在身份的隐藏。 我们将预测学习引入到强化学习算法中,该模块可以根据当前可见信息实时预测可能的身份组合,并将预测结果输入到强化学习模块中,从而引导模型的训练。 该算法模拟了人类决策时的思考过程。

  作为一款多人对抗游戏,传统的自对战方法会使得强化学习训练出现不稳定而难以收敛。 我们提出了一种基于种群的多智能体强化学习算法。 通过设计从种群中挑选对手的机制,实现了稳定的收敛性。 该种群中的每个个体在训练过程中挑选的对手均不相同,从而演化出具有不同风格特点的、相生相克的AI。 通过对种群中的所有个体举办联赛,并进行排名,从而获得不同段位等级的AI。

  游戏上线后,我们观察到了AI(尤其是高等级AI)在对局中的许多高光时刻——

  二楼捣乱者AI在前两夜都选择了隐藏,并且在3.1和3.2反对了自己未被监控的提案,身份做好

  3.3出现恶作剧后,一楼捣乱者AI开启自爆,不影响二楼身份,还顺手赚到第四晚恶作剧

  即使被住民碰巧监控到了双狼、局势大逆风时,也能从少量线索中敏锐地捕捉到目击者。

  第一晚投票时,五楼捣乱者AI被关同意,身份做坏,导致第二晚人类住民赌一把直接裸点两狼

  第二晚平安夜导致被关的一楼五楼身份继续做坏,第三晚投票时三楼住民AI继续裸点两狼

  鉴于二三楼过于冲锋,不像顺风局下的目击者,于是大胆狙杀从未进行过提案的四楼,准确命中目击者(PS: 由于担心捣乱者AI是乱蒙的,我们专门查看了后台记录,显示AI预测四楼是目击者的概率高达96%)

  当AI作为住民时,能快速推断出目击者和捣乱者的身份,并帮目击者挡刀; 当AI作为目击者时,能谨慎地隐藏在暗处,引导住民取得胜利。

  一楼住民AI在信息不明时尽可能多反对,2.3暴露二楼狼面较大,3.1四楼反关自己但放出了疑似狼的二楼,说明不是目击者,很可能是狼,结合三楼五楼经常反对、好面较大,于是在第四晚大胆点出双狼,并成功帮目击者挡刀

  五楼目击者AI第一晚故意选错,又在3.2反对了正确提案,加上一楼住民看似手握更多信息,误导了捣乱者认为一楼是目击者

  我们为AI设计了一套调用机制。 简单来说,会按照玩家段位针对性地匹配与其实力接近的AI,且玩家段位越低匹配到AI的概率越高。 目的是当新手玩家对游戏理解还不够深时,能保证该玩家和其匹配到的其他玩家的对局体验; 而随着玩家段位提升,又能逐步体会到“与人斗其乐无穷”。

  对局统计的结果也反映出了这样的设计——对局中的AI调用个数随着段位增长而先增后减: 低段位尽量配(低等级)AI防止“菜鸡互啄”;中段位鼓励玩家尽可能PVP;高段位由于玩家数量不足又需要(高等级)AI来填充匹配。

  玩家的游戏数据体现了对这种设计的认可——在AI的陪伴下,截至目前,国服第一玩家的累计对局数已经达1600局,按每局最快3分钟来计,这需要80+小时的游戏时间; 而国服Top100玩家的对局数均在300局以上,对应15+小时的游戏时间。

  让游戏进化得更好玩。AI为玩家带来了具备更高拟人性、智能度、个性化甚至成长性的对局体验,为开发者带来了数倍提升的开发效率。除了冷启动匹配之外,我们在内容生成、NPC设计、人机挑战等场景下也看到了AI的价值。更进一步,我们正在探索围绕AI打造的全新游戏品类,如《Artificial Intelligence and Games》一书中所说的那样,“ to create new game designs that start from the existence of the AI. ”

  让AI进化得更智能。如我们之前在“猎户座α”的研究工作中提到的,“每个智能体必须既能独立行动,又能与其他智能体进行合作或竞争,在这个不断变化的世界中适应与生存”。我们相信,以电子游戏为载体,这种涵盖感知、理解、推理、决策、创造等全方位能力的“多智能体学习”将是AI的下一个里程碑,从虚拟世界反哺到现实世界的各行各业。

  超参数科技成立于2019年初,致力于通过人工智能技术,改变游戏内容生产方式。

  团队背景横跨AI领域与游戏领域,具备“AI研究+AI商业化+AI游戏研发”的全栈能力,是全球少有的成功将AI落地于大型商业游戏并取得收入的团队。创始人刘永升为原腾讯AILab总经理,围棋AI“绝艺”、王者荣耀AI“绝悟”项目负责人。

  依托在机器学习、强化学习与大系统工程上的丰富经验和领跑能力,超参数科技打造了游戏AI平台“Delta”,每天服务全球40余个国家的上亿玩家、提供数千亿次调用,为数款年流水超过10亿元的游戏产品贡献了巨大的商业价值。

  2021年初,超参数科技获得3000万美元A+轮融资,投资方为五源资本和高榕资本。

  编者按:本文来自微信公众号“超参数科技”(ID:chaocanshu),作者:SERESGAMES,36氪经授权发布。

  日前,人力资源和社会保障部发布了《关于维护新就业形态劳动者劳动保障权益的指导意见》,要求进一步规范平台企业用工行为,维护新就业形态劳动者劳动保障权益,以促进灵活用工行业的规范健康可持续发展。