阿里开源新深度学习库，面向高维稀疏数据，支持千亿参数训练规模

安妮 2018-12-21 17:25:02 来源：量子位

安妮发自阿里中心

量子位出品 | 公众号 QbitAI

近日，阿里巴巴首次开源了面向高维稀疏数据的深度学习框架，叫作X-Deep Learning，简称XDL。

阿里表示，XDL基于大数据营销平台阿里妈妈的广告业务设计，可对数据高维稀疏场景的特点进行优化，提升广告、推荐、搜索场景的精准性，缩短技术迭代周期。

XDL的实际效果如何？

官方表示，XDL是阿里妈妈业务系统中正在使用的框架，每年，以XDL为基础的深度学习算法升级带来的广告收入提升量级在百亿以上。

现在，你也可以使用阿里同款框架了。它有何特点？面向谁？又将怎样使用？

千亿参数规模

阿里表示，XDL是面向互联网时代信息过载的“标配”问题优化的，即搜索、广告和推荐等典型的高维稀疏数据场景，微博、抖音、今日头条等都属于该范畴内。

此前，对于一些具有高维稀疏数据的中小企业来说，很好利用这些数据是一件麻烦事。

和TensorFlow、PyTorch、MxNet等深度学习框架相比，XDL主要有三处提升：

从分布式水平扩展能力来看，TensorFlow、PyTorch等适用于低维稠密数据的框架在机器并行度增加时，在高维稀疏场景下的系统水平扩展能力不强。

以TensorFlow为例，在实际场景测试中，并发度达到百以上时，很难再通过增加更多的计算资源来提升整体的训练吞吐率。而XDL在千级别并发上仍然保持了良好的水平可扩展能力。

横向对比来看，XDL支持模型的规模和参数比传统情况下有所提升，XDL可以支持千亿参数的大规模深度学习模型训练，包括批量训练模式和在线训练模式。

从实际运行的性能来看，在高维稀疏分布式训练下，大部分模型比开源的TensorFlow模型整体高一个量级。

无缝对接

对于企业客户来说，怎样能够将XDL大规模部署是个难题。阿里表示，在易用性上，XDL主要有两方面考量：

在分布式运行和调度上，PyTorch、TensorFlow的分布式运行的原生支持效果欠佳，对于资源的动态调度、优雅容灾做的都并不是很完善，XDL有内在的原生支持CPU/GPU的多租户隔离、动态调度与灾难恢复。

在编程易用性上，XDL使用桥接技术（Bridging），把开源深度学习框架（本期开源版XDL支持TensorFlow、MxNet）作为单机稠密网络的计算引擎后端。

用户可以在保留TensorFlow或MxNet网络开发习惯的同时，通过少量的驱动代码修改，就直接获得XDL在大规模稀疏计算上的分布式训练能力。

换句话说，使用XDL时无需再学习一门新的框架语言，可以跟现有成熟的开源社区无缝对接。用户可以将TensorFlow社区的某个开源模型通过XDL拓展到工业级场景。

阿里表示，此后将全面开源面向高维稀疏数据场景的系统化解决方案，计划分批次对外发布。

传送门

现在，XDL框架地址已经新鲜出炉，可前往GitHub获取：

https://github.com/alibaba/x-deeplearning

阿里

安妮

阿里开源新深度学习库，面向高维稀疏数据，支持千亿参数训练规模

千亿参数规模

无缝对接

传送门

相关阅读

揭秘阿里打假AI大脑：数据总量186个国家图书馆，1 AI=50000人类，获创新大奖

Canalys发布2019 Q4中国云市场报告：阿里腾讯百度位居前三

阿里音频生成大模型一次发俩还开源！50种语言快速理解+5种语言语音生成，带情感的那种

阿里百度旷视商汤京东，AI大厂怎么看产业实践？

阿里达摩院提出时序预测新模型精准预测电网负荷

达摩院突破冯·诺依曼架构性能瓶颈，新型AI芯片性能提升10倍

热门文章

雷军：地表最强四门车，小米造！自曝造车起步估值超700亿

陶哲轩在IMO上给AI团队颁奖！他们要做AI数学的ImageNet

给iPhone背面贴个AI录音机，生意老好了

AI视频修复速度10倍提升，过曝变色也能逐帧搞定｜美图国科大新算法

微软蓝屏搞瘫全球，马斯克很生气，原因很尴尬

阿里开源新深度学习库，面向高维稀疏数据，支持千亿参数训练规模

千亿参数规模

无缝对接

传送门

相关阅读

揭秘阿里打假AI大脑：数据总量186个国家图书馆，1 AI=50000人类，获创新大奖

Canalys发布2019 Q4中国云市场报告：阿里腾讯百度位居前三

阿里音频生成大模型一次发俩还开源！50种语言快速理解+5种语言语音生成，带情感的那种

阿里百度旷视商汤京东，AI大厂怎么看产业实践？

阿里达摩院提出时序预测新模型 精准预测电网负荷

达摩院突破冯·诺依曼架构性能瓶颈，新型AI芯片性能提升10倍

热门文章

雷军：地表最强四门车，小米造！自曝造车起步估值超700亿

陶哲轩在IMO上给AI团队颁奖！他们要做AI数学的ImageNet

给iPhone背面贴个AI录音机，生意老好了

AI视频修复速度10倍提升，过曝变色也能逐帧搞定｜美图国科大新算法

微软蓝屏搞瘫全球，马斯克很生气，原因很尴尬

阿里达摩院提出时序预测新模型精准预测电网负荷