阿里开源新深度学习库,面向高维稀疏数据,支持千亿参数训练规模

安妮 发自 阿里中心

量子位 出品 | 公众号 QbitAI

近日,阿里巴巴首次开源了面向高维稀疏数据的深度学习框架,叫作X-Deep Learning,简称XDL。

阿里表示,XDL基于大数据营销平台阿里妈妈的广告业务设计,可对数据高维稀疏场景的特点进行优化,提升广告、推荐、搜索场景的精准性,缩短技术迭代周期。

XDL的实际效果如何?

官方表示,XDL是阿里妈妈业务系统中正在使用的框架,每年,以XDL为基础的深度学习算法升级带来的广告收入提升量级在百亿以上。

现在,你也可以使用阿里同款框架了。它有何特点?面向谁?又将怎样使用?

阿里开源新深度学习库,面向高维稀疏数据,支持千亿参数训练规模

千亿参数规模

阿里表示,XDL是面向互联网时代信息过载的“标配”问题优化的,即搜索、广告和推荐等典型的高维稀疏数据场景,微博、抖音、今日头条等都属于该范畴内。

此前,对于一些具有高维稀疏数据的中小企业来说,很好利用这些数据是一件麻烦事。

和TensorFlow、PyTorch、MxNet等深度学习框架相比,XDL主要有三处提升:

分布式水平扩展能力来看,TensorFlow、PyTorch等适用于低维稠密数据的框架在机器并行度增加时,在高维稀疏场景下的系统水平扩展能力不强。

以TensorFlow为例,在实际场景测试中,并发度达到百以上时,很难再通过增加更多的计算资源来提升整体的训练吞吐率。而XDL在千级别并发上仍然保持了良好的水平可扩展能力。

阿里开源新深度学习库,面向高维稀疏数据,支持千亿参数训练规模

横向对比来看,XDL支持模型的规模和参数比传统情况下有所提升,XDL可以支持千亿参数的大规模深度学习模型训练,包括批量训练模式和在线训练模式。

实际运行的性能来看,在高维稀疏分布式训练下,大部分模型比开源的TensorFlow模型整体高一个量级。

无缝对接

对于企业客户来说,怎样能够将XDL大规模部署是个难题。阿里表示,在易用性上,XDL主要有两方面考量:

分布式运行和调度上,PyTorch、TensorFlow的分布式运行的原生支持效果欠佳,对于资源的动态调度、优雅容灾做的都并不是很完善,XDL有内在的原生支持CPU/GPU的多租户隔离、动态调度与灾难恢复。

编程易用性上,XDL使用桥接技术(Bridging),把开源深度学习框架(本期开源版XDL支持TensorFlow、MxNet)作为单机稠密网络的计算引擎后端。

用户可以在保留TensorFlow或MxNet网络开发习惯的同时,通过少量的驱动代码修改,就直接获得XDL在大规模稀疏计算上的分布式训练能力。

换句话说,使用XDL时无需再学习一门新的框架语言,可以跟现有成熟的开源社区无缝对接。用户可以将TensorFlow社区的某个开源模型通过XDL拓展到工业级场景。

阿里开源新深度学习库,面向高维稀疏数据,支持千亿参数训练规模
阿里开源新深度学习库,面向高维稀疏数据,支持千亿参数训练规模

阿里表示,此后将全面开源面向高维稀疏数据场景的系统化解决方案,计划分批次对外发布。

传送门

现在,XDL框架地址已经新鲜出炉,可前往GitHub获取:

https://github.com/alibaba/x-deeplearning

阿里开源新深度学习库,面向高维稀疏数据,支持千亿参数训练规模
版权所有,未经授权不得以任何形式转载及使用,违者必究。