华为算力最强AI芯片商用：2倍于英伟达V100！开源AI框架，对标TensorFlow和PyTorch

乾明 2019-08-23 16:13:18 来源：量子位

刚刚，华为业界算力最强的AI芯片正式商用。

乾明边策一璞发自凹非寺

量子位报道 | 公众号 QbitAI

刚刚，华为业界算力最强的AI芯片正式商用。

并且宣布自研AI框架MindSpore开源，直接对标业界两大主流框架——谷歌的Tensor Flow、Facebook的Pytorch。

华为AI芯片昇腾910之前已经发布，现在正式商用，对标英伟达Tesla V100，主打深度学习的训练场景，跑分性能2倍于英伟达。

华为轮值董事长徐直军说，这是华为全栈全场景AI战略的实践体现，也希望进一步实现华为新愿景：打造“万物互联的智能世界”。

但毫无疑问，华为入局，自研AI计算架构，肯定会进一步影响AI基础技术和架构格局，特别是美国公司的垄断。

MindSpore发布后，华为已经实现了完整的AI生态链，加上此前发布的ModelArts开发平台、Atlas计算平台，囊括了从芯片、框架、部署平台到应用产品完整层级。

在当下这个大环境中，这些动作也具备了自立自强、不受人掣肘的寓寄。

如今现状，AI领域的关键技术，比如算力、框架、算法等等，主要还是由少数几家美国公司提供。

比如训练芯片，主要由英伟达（GPU）、Google提供（TPU）；框架则是Google的Tensor Flow、Facebook的Pytorch等成主导；原创AI算法的发明，也只是在少数几个厂商或者研究机构手中。

这直接导致一些企业想要介入AI的时候，发现门槛很高，除了需要大量数据之外，还需要面临算力稀缺、硬件昂贵、人才难找等问题。

现在，华为要用实际行动改变这一现状。

AI领域的“鸿蒙OS”

MindSpore，与其他主流的框架不同，这是一款全场景的AI计算框架，也是一款“操作平台”。

不仅仅可以用于云计算场景，也能够应用到终端、边缘计算场景中。

也不仅仅是一款推理（部署）框架，也可以用来训练模型。

徐直军表示，这背后可以实现统一架构，一次训练，到处部署，可降低部署门槛。

从这个角度来看，MindSpore也可以视为AI领域的“鸿蒙OS”。

此外，这一框架面相的也不仅仅是开发者，也面向领域专家、数学家、算法专家等等在AI中角色越来越重要的人群。

徐直军介绍，MindSpore的界面上也更加友好，在表达AI问题求解的方程式时，更加便利，更易于算法的开放与创新，推动AI应用的普及。

用MindSpore可降低核心代码量20%，开发门槛大大降低，效率整体提升50%以上。

通过MindSpore框架自身的技术创新及其与昇腾处理器协同优化，有效克服AI计算的复杂性和算力的多样性挑战，实现了运行态的高效，大大提高了计算性能。

除了昇腾处理器，MindSpore同时也支持GPU、CPU等其它处理器。

与此同时，MindSpore也采用新AI编程语言，单机程序可分布式运行，是一个全场景框架。全场景是指MindSpore可以在包括公有云、私有云、各种边缘计算、物联网行业终端以及消费类终端等环境上部署。

而且，这一框架将会开源开放，可灵活扩展第三方框架和芯片平台。

当然，徐直军说，如果用华为的昇腾系列芯片，效果会更好，可进行全离线模式执行运算，充分发挥神经网络芯片算力，实现最佳性能搭配。

毕竟，MindSpore作为华为全栈全场景AI解决方案中的核心步骤，是首个Ascend Native开源AI计算框架，会更适合达芬奇架构的AI芯片，尤其是昇腾910。

而且MindSpore针对现在越来越大的训练模型做了更多的优化，用户无需了解并行运算的细节，只需了解单芯片部署，就可以在计算集群上进行并行计算。

徐直军表示，MindSpore会在明年第一季度正式开源。

昇腾910正式商用

昇腾910，在2018年10月华为全连接大会期间曝光，采用华为自研的达芬奇架构，号称“算力最强的AI处理器”，采用7nm工艺制程，最大功耗为350W，实测310W。

此次发布用于上市商用，直接对标英伟达Tesla V100，主打深度学习的训练场景，主要客户面向AI数据科学家和工程师。

主要性能数据如下：

半精度为（FP 16）：256 Tera FLOPS；

整数精度（INT 8）：512 Tera FLOPS，128通道全高清视频解码器- H.264/265。

在去年全连接大会上，华为就和友商对比了一下，battle的参赛选手包括谷歌TPU v2、谷歌TPU v3、英伟达 V100和华为的昇腾910。

“可以达到256TFLOPS，比英伟达 V100还要高出1倍！”

相同的功耗下，昇腾910的算力是V100的两倍，训练速度更快，用户需要得出训练产出的时间会更短。在典型案例下，对比V100，昇腾910的计算速度可以提升50%-100%。

在典型的ResNet50 网络的训练中，昇腾910与MindSpore配合，与现有主流训练单卡配合TensorFlow相比，显示出接近2倍的性能提升。

而且徐直军还在会后明确表示：价格还没定，但肯定不会高！

全球格局下的华为AI进展

2018年10月，在华为全连接大会上，徐直军公布了华为全栈全场景 AI 战略计划，将数据获取、训练、部署等各个环节囊括在自己的框架之内，主要目的是提升效率，让AI应用开发更加容易和便捷。

全场景包括：消费终端 (Consumer Device)、公有云 (Public Cloud) 、私有云 (Private Cloud)、边缘计算 (Edge Computing)、IoT行业终端 (Industrial IoT Device) 这5大类场景。

重点在于全栈，包含基于达芬奇架构的昇腾系列芯片（Max、Lite、Mini、Tiny、Nano）、高度自动化的算子开发工具CANN、MindSpore框架和机器学习PaaS (平台即服务) ModelArts。

随着昇腾910正式商用以及MindSpore框架正式推出，华为全栈全场景AI解决方案愈发完善，竞争力也会随之上升。

而且，华为之AI，也不仅仅是关乎华为本身业务，也应该从更加宏观的角度去审视。

当下，AI落地已经成为无可争议的大趋势，大方向。

但中美关系日趋紧张的情况下，中国到底如何，也引发了更多关注。

近日，Nature最新发表了一篇，名为“Will China lead the world in AI by 2030?”，提出问题的同时，也审视了中国AI发展的现状。

文章中援引艾伦人工智能研究所数据显示，在最顶级的10%高引用论文中，中国作者占比在2018年已经达到26.5%，非常接近美国的29%。如果这一趋势持续下去，中国将在今年超过美国。

需要场景？数据？金钱？人才？等等，这些都不差。

但为什么，卡脖子隐忧，AI领域依然存在。

核心还在于算力（芯片）与基础技术。

Nature文章就指出，中国在人工智能的核心技术工具方面仍然落后。目前全世界的工业和学术界广泛应用的开源AI平台TensorFlow和Caffe，由美国公司和组织开发。

框架方面，百度的PaddlePaddle飞桨也不断突破，虽然发展势头非常好，却还是显得势单力簿。

更关键的是，中国在AI硬件方面的落后非常明显。全球大多数领先的AI半导体芯片都是由美国公司制造的，如英伟达、英特尔、谷歌和AMD等。

中国工程院院士、西安交通大学人工智能与机器人研究所所长郑南宁，接受Nature采访时说：“我们在设计可支持高级AI系统的计算芯片方面也缺乏专业知识。”

虽然国内也有不少公司在努力，比如阿里、百度、依图、地平线等等，都涉足了AI芯片领域，但大部分都聚焦在终端SoC和推理上面，用于训练的大型算力芯片并不多。

郑南宁预计，中国可能需要5到10年才能达到美国和英国基础理论和算法的创新水平，但中国会实现这一目标。

来自柏林智库的政治学者Kristin Shi-Kupfer也表示，基础理论和技术方面的贡献，将是中国实现长期AI目标的关键所在。

她同时强调，如果没有在机器学习上没有真正的突破性进展，那么中国在人工智能领域的增长，将面临发展上限。

所以，Nature的问题：中国AI，到2030年能够领先全球吗？

今天华为给出一种解法，但一切还只是开始。

你怎么看？

— 完 —

AI芯片华为

乾明

华为算力最强AI芯片商用：2倍于英伟达V100！开源AI框架，对标TensorFlow和PyTorch

AI领域的“鸿蒙OS”

昇腾910正式商用

全球格局下的华为AI进展

相关阅读

任正非：鸿蒙与苹果系统相媲美应该不需要两到三年

华为云发布智能办公软件WeLink，曾表示“不碰应用”

余承东没有吹牛：华为首次超越三星，成为全球最大手机供应商

华为的战略执行力，不得不服

华为开源只用加法的神经网络：实习生领衔打造，效果不输传统CNN | CVPR 2020 Oral

ARM迫不得已拿出大绝招，华为看了一眼松了口气

热门文章

雷军：地表最强四门车，小米造！自曝造车起步估值超700亿

陶哲轩在IMO上给AI团队颁奖！他们要做AI数学的ImageNet

给iPhone背面贴个AI录音机，生意老好了

AI视频修复速度10倍提升，过曝变色也能逐帧搞定｜美图国科大新算法

微软蓝屏搞瘫全球，马斯克很生气，原因很尴尬