启元世界CEO袁泉：能力涌现不只与模型大小相关 | 中国AIGC产业峰会

衡宇 2023-04-12 13:41:27 来源：量子位

如何在元宇宙里训练AGI，未来可能是一个新的命题

衡宇发自凹非寺

量子位 | 公众号 QbitAI

ChatGPT和GPT-4引发全球地震，很多人都在思考一个问题：OpenAI的成功路径是什么？

在中国AIGC产业峰会现场，启元世界创始人兼CEO袁泉给出了他的答案，它很好地融合了三大时代红利。

三个红利具体如下：

一是摩尔定律带来的算力红利，尤其是GPU的算力；
二是算法的并行性带来规模可扩展的红利；
三是对无标注数据探索的红利。

2017年，Transformer出现后，OpenAI很快将这三点融合在一起，推出了GPT-1，而后GPT-2、GPT-3……

ChatGPT破圈之后，人们对AGI有了更多的理解和认识，而国内，启元世界也于早几年起开始在AGI方向探索。

启元世界成立于2017年。当时，几个联创在纽约听了AlphaGo创始人之一David Silver关于AlphaGo战胜李世石的分享，其中谈到了背后包含DL和RL的AGI技术，从而激发了他们对AGI的兴趣。

成立后，启元世界开始沿着AGI路径，以游戏为切入点，逐渐从互联网、元宇宙破圈。这一次，在总结OpenAI的成功路径后，关于践行AGI这件事，袁泉在活动现场分享了启元视角下的观点。

为了完整体现他的思考，在不改变原意的基础上，量子位对其演讲内容进行了编辑整理。

中国 AIGC 产业峰会是由量子位主办的行业峰会，近 20 位产业代表与会讨论。线下参与观众 600+，线上收看观众近 300 万，得到了包括 CCTV2、BTV 等在内的数十家媒体的广泛报道关注。

演讲要点：

ChatGPT是站在三大技术红利之上的一个划时代产物；
在特定问题空间中，几千万参数的transformer就能取得不错的效果；
未来5到10年，AGI的重点是元宇宙，因为元宇宙的本质是互联网丰富的语料、交互和3D开放世界游戏的合体；
涌现能力除了与模型大小相关，还可能和问题领域的规模、AGI是否已在这个领域充分探索，都有一定关联；
将AIGC融入游戏制作阶段，如游戏策划，尤其是数值策划等，会优化整个游戏数值生态的平衡性。

以下为袁泉演讲全文：

站在三大技术红利之上的划时代产物

ChatGPT破圈之后，大家都在分析OpenAI的成功路径。这里我也谈一些启元的思考和实践。

从技术角度看，我们觉得ChatGPT是站在三大技术红利之上的一个划时代产物。

一个红利是摩尔定律带来算力红利，尤其是GPU的算力，可能超过摩尔定律的提升速度。

第二大红利就是算法的并行性所带来的scalable的红利。2017年底、Transformer出现之前，DL的算法，尤其用于做序列数据、序列决策的算法，主要以LSTM（Long Short-Term Memory，长短期记忆网络）为主，很难并行化。

Transformer发布第二天，Ilya Sutskever（OpenAI联合创始人兼首席科学家）就看到它的并行性以及长语境能带来的好处，于是研究转向以此为基础。

第三大红利就是大数据中的未标注数据。我个人觉得，从2016年起，OpenAI就对它开始看重。

GPT-1就是把这三点较好融合在一起的产物，GPT-2在其基础上拓展了10倍，GPT-3又拓展了100倍，这让业界十分吃惊。

RL之父、DeepMind研究科学家Richard Sutton在2019年就提到，之前几十年，AI发展过程走的最大的弯路，就没有用可扩展性来进行研究。

但OpenAI很快把这一套践行到GPT系列大模型上。

践行AGI发展路径的启元方式

启元是怎么践行AGI发展路径的呢？

第一个阶段，从2017年开始，启元用3年时间主要在包括《星际争霸》等游戏世界里探索AGI。

从零开始，只用少量的、5000局中韩高手游戏录像作为启动，在游戏中训练AGI。

一个比较有意思的现象是，在特定问题空间中，几千万参数的transformer就能取得不错的效果。基于此，启元把它优化后用到了游戏行业最主流的7大品类游戏中。

第二阶段是游戏世界往互联网世界破圈。2016年左右，OpenAI就开始探究在互联网上是否也能够基于DL、RL甚至AGI来训练很强的智能体。

Transformer出来后，OpenAI发现scalable的方法，这也让全世界发现把AGI技术用在价值大于游戏行业100倍的互联网里，能创造更大的商业价值和社会价值，带来很多机会。

第三个阶段，可能也是未来5到10年的重点，就是元宇宙。我们认为元宇宙的本质是互联网丰富的语料、交互和3D开放世界游戏的合体。

AIGC如何催生元宇宙、在元宇宙中如何训练AGI，使得它能力越来越强，能够完成更多的任务，可能也是未来非常有价值的命题。

最后一步可能是AGI虚实迁移，服务或者应用于现实世界中。

启元世界的发展过程则主要分两个阶段。

第一阶段是前三年，主要是在各类游戏中训练决策大模型为主，参数级别在几千万或者一亿以内，能够让AI用小样本做启动，甚至从零开始做启动，探索这一类任务的边界。

第二阶段是从2021年开始，我们开始做10亿到100亿参数的语言模型。

背后原因是我们觉得模型的参数大小其实和所解决任务空间的大小、任务下能够收集到高质量语料高度相关。在我们看来，10亿到100亿规模，能和各个行业垂直应用相结合的这一类模型，还有非常大的潜力。

在决策大模型这一块，以《星际争霸》智能体为代表，2020年6月份，我们击败中国星际职业选手，出现了一个今天看来比较反常识的认知，那就是今天看到千亿参数模型可以涌现出100多种不同能力，在当时4900万参数的星际模型现场比赛时，涌现出“维京流”这样的新策略玩法，即按照人类选手的经验和规则去放基地、建造新东西的玩法，给了大家一些启发。

△

AI对战人类选手现场

可能涌现能力除了与模型大小相关之外，和问题领域的规模，以及AGI是否在这个问题中已经充分探索到经验的边界，都有一定的关联。

做启发人和陪伴人的AGI

基于决策大模型的技术和平台，目前启元的目标主要是做启发人和陪伴人的AGI。

一方面在很多游戏中，比如在线用户不多时，AI陪人互动，陪人去玩。

第二方面我们叫“陪聊NPC”，比如说一局游戏结束后，上一局人机合作胜负如何、战况如何，下一局怎么打，用户都可以和AI进行交流。

还有一部分是将AIGC融入游戏制作阶段，如游戏策划，尤其是数值策划等，会优化整个游戏数值生态的平衡性，这一部分AI探索效率更高，也更能帮助在数值和平衡性方面进行优化。

最近我们在《三国志战棋版》中有一个落地案例。玩法是走格子下棋，几百张地图中，山川河流不一，还有几百个武将，每一局目标也不一样，有攻城、守城、野战、援护、撤退等等。

这里面就是启元训练的800万参数transformer智能体，可以用通用方式应对不同攻关需求，包括自己探究新的有意思的玩法。

这就是我们觉得并且基于涌现能力，AGI不仅能提升效率，还可能产生很多新的体验价值的原因。

去年开始，启元另一个重点是做陪聊NPC。

面向更广泛的虚拟世界，比如一些历史人物和二次元人物，用户也想跟他们深度互动。AGI技术让此成为可能。

我们基于刘备做了一个陪聊NPC，你问刘备为什么喜欢哭？怎么看待阿斗？他都能给出基于人设、基于事实的交互和对话。

在我们看来，AGI技术既能用于游戏中，也可以展现出非常强的破圈能力，尤其是陪聊类、交互类NPC，能把历史人物、虚拟人物、二次元人物等任何之前想交往但是无法接触的人，拉到你身边，进行符合人设和事实的交互和对话。

启元世界成立时，slogan就是“Build intelligence, Understanding worlds, Inspire people”。我们的定位是做好AGI的应用技术和产品研发，并要服务任何场景。

我们初心和目标，还是希望AGI能更多启发人、陪伴人，在数字世界中创造更多的乐趣和价值。

AGI AIGC产业峰会启元世界

衡宇

启元世界CEO袁泉：能力涌现不只与模型大小相关 | 中国AIGC产业峰会

演讲要点：

站在三大技术红利之上的划时代产物

践行AGI发展路径的启元方式

做启发人和陪伴人的AGI

相关阅读

硅谷VC张璐：硅谷大模型市场分为三类，三大应用领域迭代速度较快

清华天机AI芯片登Nature封面：全球首款异构融合类脑芯片，实现自行车无人驾驶

奥特曼：假如给我一千倍算力，我会这样做

万字梳理中国AIGC产业峰会激辩，大模型应用最全行业参考在此

美国版梁文锋来了

LeCun最新访谈:距离AGI可能不到10年,下一代AI需要情感和视觉训练

热门文章

起底“豆包手机”：核心技术探索早已开源，GUI Agent布局近两年，“全球首款真正的AI手机”

看完最新国产AI写的公众号文章，我慌了！

共推空天领域智能化升级！趋境科技与金航数码强强联手

Waymo认栽召回！搞不定校车难题，被抓到19次非法超车

英伟达自毁CUDA门槛！15行Python写GPU内核，性能匹敌200行C++