20+顶尖高校同时开打《王者荣耀》！实际上是一场科研battle，你能信？

十三 2021-09-01 14:01:45 来源：量子位

还是导师支持的那种

金磊假装发自王者峡谷

量子位报道 | 公众号 QbitAI

不是吧，不是吧。

一群学霸聚集在一起，竟然是为了打《王者荣耀》？！

而且还是来自清北、中科院、浙大等20余所顶级学府的那种。

但毕竟是一帮学霸们的“聚会”，果然连打游戏的“姿势”都那么与众不同：

他们竟然要用《王者荣耀》搞科研！

（妥妥的是有种诸葛亮“黄金分割率”的味道了。）

这到底是怎么一回事？

在《王者荣耀》里搞科研

要想搞清楚这件事，就需要先来颠覆一下你对《王者荣耀》的认知。

友友们，其实它不单单是一款游戏那么简单：

还是一个极具科研价值的游戏环境。

更准确来说，《王者荣耀》背后是一个AI 开放研究平台，它背靠腾讯各方面资源优势，为学术研究和算法开发开放的研究与应用探索平台——

“开悟”。

但搞科研嘛，算法、算力、数据、场景，可以说是缺一不可。

于是“开悟”就放话了：

各路英雄豪杰，我这儿啥都有！

比如《王者荣耀》提供了游戏测试环境、脱敏游戏数据集，还有游戏核心集群等资源。

腾讯AI Lab则把搭建好的算法、计算平台、评估工具亮了出来；算力的支持则是由腾讯云计算提供。

于是乎，来自各大顶尖高校的学霸们，就华山论剑般地汇聚于此。

至于各家高手们的“论剑之道”，就是在限定时间和资源内，训练出最优模型，并把它部署到AI服务器当中。

在提交系统之后，学霸们就相当于“炼”出了他们各自的《王者荣耀》英雄。

这不，同样是貂蝉，在修炼完不同“功法”后，便展开了一场激烈的博弈。

在1级狭路相逢之际，便来了个同归于尽。

20+顶尖高校开打《王者荣耀》！实际是一场科研battle，你能信？

△ 注：动图来自2021高校联赛AI表演赛

虽说都只是智能体，但在这波battle中，她们很好地发挥了自身的基本功：

作战中……

预测敌方走位……

已击杀，阵亡……

每个基本功背后，都是智能体在“审时度势”后的最佳决策。

而在双方复活之后，策略之间的博弈就变得更加紧凑和激烈。

毕竟常言道：一招棋错，满盘皆输

蓝方貂蝉在入场发觉自己经济较低，果断选择“发展我方经济”。

但同时也没有做到过分“猥琐发育”，还是该出手时就出手——发起进攻、持续进攻。

20+顶尖高校开打《王者荣耀》！实际是一场科研battle，你能信？

△ 注：动图来自2021高校联赛AI表演赛

而在后期的决策博弈更是精彩：

战略撤退、进攻防御塔、返回基地、追击地方……

很是有种人类玩家的感觉了。

不仅如此，智能体在紧张的战斗决策同时，还兼顾了出装策略。

大家都知道，出完血书（血族之书）的貂蝉，战斗中的续航能力会得到大幅提升。

为此，蓝方貂蝉第二个法术大件果断选择梦魇之牙，以此来克制红方貂蝉的回血。

20+顶尖高校开打《王者荣耀》！实际是一场科研battle，你能信？

△ 注：动图来自2021高校联赛AI表演赛

红蓝貂蝉在交手“八百回合”之后，终于迎来了“决战紫禁之巅”的时刻。

在红方水晶之下，两位貂蝉纷纷喊出“花开了，怒放吧”开启大招，完成最后的较量。

最终，以双方纷纷倒地，由蓝方小兵推倒红方水晶结束战斗。

……

这就是学霸们在《王者荣耀》里搞科研的结果展示。

而更具体一点来说，就是在特定的环境中，对多智能体之间的博弈展开研究，属于强化学习领域范畴。

它的难点之一，就在于智能体的每一个决策与动作，都会对全局产生非常复杂的变化，是有种“牵一发而动全身”的感觉了。

而在刚才的例子中，只是展示了学霸们在1V1场景中的科研成果，但其实他们还会有3V3的战斗。

这种场景对于智能体的挑战就更高了，因为每个智能体仅能获取局部的观测信息，但无法得知其他“队友”或“敌人”的信息。

这就对合作与竞争、完成特定任务背后的算法，提出了高难度的要求。

果然，学霸们打个游戏都是如此烧脑。

……

不过讲真，如此“名场面”还真不是什么新鲜事。

游戏中搞科研，并不是第一次

其实刚才学霸们的“科研展示”，就是去年中科大和电子科大，在第一届*腾讯“开悟”AI大赛上演的一场决斗。

这场比赛可以说是扩大了社会各界对“AI+游戏”的认知。

但说实话，在游戏里搞科研这件事，国内外早就有所行动了。

例如早在2017年，OpenAI“修炼”的智能体，就单挑苦练了半辈子Dota的人类玩家Dendi，最终AI大获全胜。

时隔一年（2018年），OpenAI再次派出OpenAI Five，以5V5模式对战人类顶级阵容。

结果，又是以AI100%胜率告终比赛。

当时这样的结果简直是出乎观众的意料之外，就连马斯克在比赛前被问及“谁会赢”，都非常自信地回复到“人类”。

与此相关的技术论文也早就有所公布。

而除了在Dota2这种5V5团队竞技类型游戏外，“AI+游戏”在其他类型的游戏中也有所渗透。

例如DeepMind从2017年开始，也频繁曝出在《星际争霸2》这款游戏中碾压人类顶级玩家的消息。

DeepMind在这方面的科研研究——AlphaStar，其背后的相关技术论文，更是登上了顶刊Nature。

而在国内，对于“AI+游戏”的科研也是如火如荼地进行中。

例如早在2018年开始，腾讯AI Lab便在《王者荣耀》中持续发力，并与游戏团队打造出了策略协作型AI“王者绝悟”。

要知道，类似于这样的5V5 团队竞技游戏，单是玩家的动作状态空间便高达1020000。

这个数字远远大于围棋及其他简单游戏，甚至超过整个宇宙的原子总数（1080）。

在这三年期间，腾讯AI Lab在与之相关的研究，更是频频登上了AAAI、NeurIPS 等 AI 顶级会议（相关链接附在文末，感兴趣的读者可深入研究）。

而就在前不久的世界人工智能大会中，“王者绝悟”更是以全英雄达到职业电竞水平亮相。

在与人类顶级选手的较量中，更是以绝对的胜率惊艳四座。

值得一提的是，正是由于腾讯AI Lab在“AI+游戏”领域的技术沉淀，才能够在将其能力“打包”输送给高校的学霸们，也就是我们刚才提到的“开悟”AI开放研究平台。

……

至此，或许你有一个大大的疑问：

在游戏里搞科学研究，对我们现实生活有什么意义吗？

直接上答案——有的！而且意义非凡。

游戏，会是下一个AI里程碑的诞生地吗？

是的，这就是业界目前普遍认同的一种看法：

下一个AI里程碑可能会在复杂策略游戏中诞生。

这种说法并不是空穴来风。

首先，“AI+游戏”所涉足的大领域，便是强化学习。

一般来说，强化学习是用于描述和解决智能体在与环境的交互过程中，通过学习策略以达成回报最大化或实现特定目标的问题。

而一些复杂的强化学习算法，更是在一定程度上具备了解决复杂问题的通用智能。

但要通过训练，让智能体“炼就”如此能力，正如我们刚才说到的，算法、数据、算力、场景，这四样缺一不可。

尤其是场景和数据，需要够复杂、够具备不确定性，才能更好的贴近真实世界中人类决策时面对的环境。

游戏场景，恰恰就是符合这些高要求的“阵地”。

因此，长远来看，“AI+游戏”研究将是攻克通用人工智能（AGI）的关键一步。

而之于现实意义，以近几年大火的自动驾驶为例。

在这一领域中，随着技术的不断发展，自动驾驶逐步地从“感知层”向“决策层”过渡。

这是因为自动驾驶车辆在面临突发、不确定性问题时，需要作出精准的决策，来避免意外的发生。

可以把一辆自动驾驶汽车想象为一个游戏中的智能体，当它在现实生活中运行时，所要面对的问题复杂度之高，就不言而喻了。

这就离不开通过强化学习方法的大量训练，让自动驾驶这个“智能体”的应变能力，能够无限接近甚至超越人类。

但要练就这身功夫，在真实生活场景中训练定然是不现实的，而游戏，就成了一个非常好的训练场。

自动驾驶只是应用场景的案例之一，更多的还包括城市/空中交通管理、多机器人协调、能源分配等问题。

……

而腾讯AI Lab之所以携手王者荣耀团队打造“开悟”，也是基于上述情况的考量，不过他想要的做的却更多：

推动多智能体强化学习的发展。

尤其是高校在这方面的研究，更是“硬性条件”上面临着较为严峻的挑战。

但开放“开悟”，仅仅是腾讯AI Lab和王者荣耀团队为了完成这一目标的举措之一。

据了解，开悟还携手高校合作开发课程，进一步普及多智能体强化学习教育。

例如在今年8月，腾讯就宣布与四所国内一流高校（北京大学、电子科技大学、清华大学、中国科学技术大学），共建教学内容和课程体系改革项目。

据悉，这些顶尖高校将分别构建一门至少20学时的多智能体及强化学习平台的专业课程，理论授课知识点包括但不限于机器学习、强化学习、多智能体决策等相关的知识点。

除此之外，腾讯“开悟”还联合高校成立了人工智能科教联盟，并携手高校、科研院所、产业园区、投资机构组建人工智能科创联合体。

正如《王者荣耀》执行制作人、腾讯天美L1总经理黄蓝枭总结的那样：

我们开放了《王者荣耀》核心机制，提供标准接口、核心算法、脱敏的测试数据、评估工具和计算集群等，给高校老师和同学们进行多智能体的机器学习算法研究、学习成果交流，对算法成果反复迭代升级。期待这些研究成果能够落地其他产业环境，为工业机器人、救灾机器人等提供助力。

……

读到这里，你想不想围观清北等高校的学霸们，如何不仅打了游戏，还顺便把科研也一块搞了？

请继续关注开悟平台及赛事动向。

传送门

开悟官网地址：

https://aiarena.tencent.com/aiarena/zh/index

绝悟相关论文地址：

Mastering Complex Control in MOBA Games with Deep Reinforcement Learning：
https://arxiv.org/abs/1912.09729

Hierarchical Macro Strategy Model for MOBA Game AI：
https://arxiv.org/abs/1812.07887

Supervised Learning Achieves Human-Level Performance in MOBA Games: A Case Study of Honor of Kings：
https://arxiv.org/abs/2011.12582

AI 强化学习智能体王者荣耀

十三

商汤科技日日新大模型亮相巴黎，中国AI共赴奥运之约2024-07-26
智谱AI版Sora来了！人人免费不限次，有手机就能玩，API也开放了2024-07-26
Mac装上字节豆包，艾玛！一下变AI PC了！2024-07-22
英特尔举办2024网络与边缘计算行业大会，推动边缘AI创新发展2024-07-24

20+顶尖高校同时开打《王者荣耀》！实际上是一场科研battle，你能信？

在《王者荣耀》里搞科研

游戏中搞科研，并不是第一次

游戏，会是下一个AI里程碑的诞生地吗？

传送门

相关阅读

AI一小时预测出奥密克戎变体结构，误差仅半个原子直径

「灌篮高手」模拟人形机器人，一比一照搬人类篮球招式，看一遍就能学会，无需特定任务的奖励

GRE作文用AI打分，已经20周年了：AI给中国考生的分数，远高于人类打分

突发！Stable Diffusion核心团队被曝集体离职

Agent像人一样分工协作，还能“群聊”交换信息｜ICLR2024 Oral

不懂AI的我，是如何搞开发的？

热门文章

雷军：地表最强四门车，小米造！自曝造车起步估值超700亿

陶哲轩在IMO上给AI团队颁奖！他们要做AI数学的ImageNet

给iPhone背面贴个AI录音机，生意老好了

AI视频修复速度10倍提升，过曝变色也能逐帧搞定｜美图国科大新算法

微软蓝屏搞瘫全球，马斯克很生气，原因很尴尬