淘宝用强化学习优化商品搜索后，总收入能提高2%｜论文

大萌萌 2018-06-04 19:09:56 来源：量子位

林鳞编译自 arXiv

量子位出品 | 公众号 QbitAI

眼看618在即，淘宝又公布了新研究成果。

近日，南京大学和淘宝联合发表的论文Virtual-Taobao: Virtualizing Real-world Online Retail Environment for Reinforcement Learning中，详细介绍了淘宝用强化学习优化商品搜索的新技术。

这个新构建的“虚拟淘宝”模拟器，可以让算法从买家的历史行为中学习，规划最佳商品搜索显示策略，能在真实环境中让淘宝的收入提高2%，是一笔不小的数额。

一起看看这个研究究竟讲了什么——

“四位一体”的虚拟淘宝

强化学习（Reinforcement Learning，RL）是匹黑马，可能会对淘宝用户体验产生变革性影响，但在物理世界中的RL应用却少有人研究。

这是有原因的。一般来说，目前的RL算法通常需要与环境进行大量交互，成本高昂。

在这个项目中，淘宝研究人员通过买家的历史购买记录，生成了“虚拟淘宝（Virtual Taobao）”；平台，虚拟的买家可进入淘宝触发平台搜索引擎。

△ 虚拟淘宝架构

在这里，研究人员提出的GAN-SD（GAN-for-Simulating-Distribution）算法模仿虚拟买家的操作和搜索请求。

虚拟用户有了，但还还没有和环境产生交互。为了让虚拟平台产生交互变成动态环境，研究人员还提出了MAIL方法（Multi-agent Adversarial Imitation Learning），也可以称之为智能体对抗模仿学习法。MAIL同时学习买家规则和平台的规则，训练买家和平台产生更加真实的交互。

不过虚拟的终究是假的，当研究人员发现算法过度拟合虚拟淘宝时，意味着可能在实际情况下表现不佳。对此，研究人员提出了动作规范约束ANC策略（Action Norm Constraint），可以减少这种过拟合。

这样，“四位一体”的虚拟淘宝就建成了。

实验结果

思路和模型搭建完毕后，是时候表演真正的技术了。研究人员用下面三个指标衡量实验结果。

总营业额（TT）：所售商品的价值。
总成交量（TV）：所售商品的数量。
页面采购率（R2P）：采购发生时PV（显示页面视图）数量比率。

实验结果显示，通过数亿用户记录构建的虚拟淘宝重建了非常接近真实物理世界的环境。

△ 淘宝和虚拟淘宝间的用户分布情况

△ 淘宝和虚拟淘宝之间的R2P分布情况

研究人员，将一天的历史数据按时间顺序分为12个部分，以模拟R2P随时间变化的过程，结果如下：

△ R2P随时间推移的走势

研究人员用了观察了虚拟淘宝的泛化能力，并且观察用行为克隆法（BC）替代MAIL之后R2P走势。实验证明BC环境中的R2P下降更快。

△ 虚拟淘宝的泛化能力

最后，研究人员将虚拟淘宝（RL + VTaobao）中的RL方法产生的策略与历史数据（SL + Data）上的监督式学习方法进行比较，结果如下：

可以看出，该RL+ VTaobao总是优于SL+Data法。

作者团队

这一研究的作者有五人，包括南京大学软件新技术国家重点实验室的Jing Cheng Shi，Yang Yu，Shi Yong Chen，也有阿里集团的Qing Da和曾安祥（花名仁重）。

△ 阿里巴巴搜索事业部曾安祥

阿里集团和南京大学的合作不只淘宝这个案例。不久前，实验室与蚂蚁金服合著的研究Distributed Deep Forest and its Application to Automatic Detection of Cash-out Fraud论文也已发表。对了，这个实验室的常务副主任是周志华。

淘宝用强化学习优化商品搜索后，总收入能提高2%｜论文

“四位一体”的虚拟淘宝

实验结果

作者团队

相关资料

相关阅读

世界上最难的“沙雕”游戏被AI攻破了

密码写死、身份验证未加密，Pepper机器人拉低了程序员界的智商

腾讯下场造芯！官网百万年薪招揽人才，瞄准AI芯片

74KB图片也高清，谷歌用神经网络打造图像压缩新算法

数牍科技蔡超超：数据价值挖掘和保护可以兼顾，隐私计算已有不少落地案例丨MEET2022

腾讯估分对答案：AI，真香！产业互联网，真香！

热门文章

雷军：地表最强四门车，小米造！自曝造车起步估值超700亿

陶哲轩在IMO上给AI团队颁奖！他们要做AI数学的ImageNet

给iPhone背面贴个AI录音机，生意老好了

AI视频修复速度10倍提升，过曝变色也能逐帧搞定｜美图国科大新算法

微软蓝屏搞瘫全球，马斯克很生气，原因很尴尬