这款超火的游戏，AI只用4小时，就秀出了人类花1年才能达到的水平

萧箫 2020-12-29 14:19:33 来源：量子位

Reddit热度2.7k

萧箫发自凹非寺
量子位报道 | 公众号 QbitAI

操控一辆赛车，在空中带球射门，需要练习多长时间？

通常来说，一名普通玩家要达成这样的水平，至少要练习上一年时间。

这是一款国外很火的游戏《火箭联盟》 （Rocket League），玩家会操作一辆赛车，利用各种办法将球“踢”进门。

然而，现在已经有人开发出了一个基于深度强化学习的赛车游戏环境RoboLeague。通过环境训练的赛车，不仅能看准时机射门：

还在4小时的训练后，就能长时间颠球，保证车和球都不落地：

这个RoboLeague，一下子在Reddit炸出了2.7k的热度。

有网友调侃，看到这些比自己玩得好的“AI选手”，总会让他感觉很挫败。

那么，这个赛车游戏环境，究竟优秀在哪里？

比已有的游戏环境更好用

事实上，这并不是第一个基于《火箭联盟》做出的游戏环境。

有网友很快指出，此前已有支持用自定义赛车玩《火箭联盟》的RLBot，效果挺不错。

在RLBot中，同样允许玩家用自己编写的代码来控制赛车。

而且，玩家能通过游戏场景的反馈，对代码进行反复调试，最终做出想要的机器人赛车。

事实上，作者在训练强化学习模型前，并非没有考虑过RLBot。

毕竟，这个框架支持各种语言，让玩家能编写出想要的机器人赛车。

然而，在尝试过RLBot后，作者还是决定基于Unity引擎，自己开发一个游戏环境。

主要有3点原因：

基于Unity引擎打造的环境，能够自己创建想要的游戏场景。
此外，在RLBot中，基于实时数据训练AI模型的速度，其实并不快。而如果游戏再大点，在RLBot中训练可能就会出现问题了。
自己创建的游戏环境，可以并行训练游戏中的多个实例。相比之下，RLBot基于《火箭联盟》搭建，只能同时玩1场游戏，无法并行训练。

那么，在RoboLeague环境中，如何训练出这样一个“聪明的”智能体？

基于强化学习，训练出智能体

在训练之前，先来了解一下，《火箭联盟》中大致有些什么规则，玩家又是怎么射门的。

整体来说，这是一个玩家通过控制赛车，来进球射门的游戏。

其中，这里面的赛车和球，符合一些物理规则：

球具有弹性，可以从地面/墙壁反弹、受摩擦力和重力影响
赛车在地面可以加速制动，在空中的控制也符合物理条件
赛车的轮子具有某种黏力，可以在墙壁上运动不脱落下来

而《火箭联盟》中的一些高级玩家，通常会想办法让自己和球不落地，完成空中带球射门。

但要达到这样的水平，不仅要对场地有足够的了解，操作水平也必须在线。

这其中，作者利用了强化学习中的“奖励机制”，来告诉智能体应该怎么做。

智能体并不需要基于先验知识完成操作，而会通过尝试各种随机行为，试图达成“奖励机制”的要求。

而作者给出的唯一一个奖励机制，就是保证赛车和球不落地，即“活着”。

因为只要不落地，空中带球的条件就完成了大半。

在反复尝试后，智能体发现，只要让赛车尽可能垂直竖在空中，同时保持颠球的稳定，就能保证“活着”。

也正是在这样的奖励机制下，只用4个小时（约50M次运行），赛车就完成了自己的目标。

如果想要让智能体完成更复杂的任务，如空中带球射门等，也只需要找到对应的奖励机制，利用强化学习训练就能达成。

目前，作者已经将RoboLeague开源。

也就是说，如果你想要训练出符合自己要求的深度强化学习模型，那么用这个游戏环境，就能进行训练。

关于作者

作者@Roboserg，并未透露自己的真实姓名，不过此前，他已经做出了很多利用强化学习训练出来的小型游戏实验。

例如，在各种球的撞击下保持平衡的飞机：

又或者，两个球之间的“足球”比赛：

据作者透露，他接下来还会计划开发一款穿越飞环的游戏。

这款游戏会训练智能体穿过飞环，真正做到和大神玩家的操作无异。

说不定，作者甚至真能用强化学习，训练出一整个网站的小游戏来？

源代码：
https://github.com/roboserg/RoboLeague

参考链接：
https://www.reddit.com/r/MachineLearning/comments/klbvaw/p_doing_a_clone_of_rocket_league_for_ai/
https://rlbot.org/
https://unity.com/cn/products/machine-learning-agents

人工智能强化学习火箭联盟

萧箫

这款超火的游戏，AI只用4小时，就秀出了人类花1年才能达到的水平

比已有的游戏环境更好用

基于强化学习，训练出智能体

关于作者

相关阅读

柯洁预言AI绘画会替代大部分画师，网友：初代AI受害者现身说法

打破“维度的诅咒”，机器学习降维大法好

AI模型走下高科技神坛、走进大规模量产、深入渗透产业界丨百度研究院2020十大预测

7B小模型超越DeepSeek-R1：模仿人类教师，弱模型也能教出强推理LLM | Transformer作者团队

郭德纲用英语说相声，那叫一个地地地地地道！

这个B站up主太硬核了！纯手工打造AI小电视：硬件自己焊接，驱动代码全手写

热门文章

谷歌智能体发力：增强版Gemini Deep Research和专属API都来了

中国机器人比赛应急救援，美国网友Reddit破防：我们还在给机器狗化妆拍段子

钉钉又发新版本！把 AI 搬进每一次对话和会议

MEET2026挤爆了，AI圈今年最该听的20+场演讲&对谈都在这

马斯克霸气回怼Waymo：连对抗特斯拉的机会都没有