克服DIMM近存计算系统的通信瓶颈,清华软件定义芯片团队提出DIMM间广播技术 | ISCA 2021

该报告针对DIMM(双列直插式存储模块)近存计算架构的通信瓶颈问题,提出了基于DIMM间广播技术的通信优化方法。该方法充分利用了内存总线广播的可扩展性以及广播机制的广泛适用性,为DIMM近存计算的通信优化提供了强有力的新工具。

允中 发自 凹非寺
量子位 编辑 | 公众号 QbitAI

2021年6月14日~6月17日,第48届国际计算机体系结构大会(ISCA)通过线上模式顺利召开。清华大学魏少军刘雷波教授团队作了题为“ABC-DIMM: Alleviating the Bottleneck of Communication in DIMM-based Near Memory Processing with Inter-DIMM Broadcast”的学术报告。

该报告针对DIMM(双列直插式存储模块)近存计算架构的通信瓶颈问题,提出了基于DIMM间广播技术的通信优化方法。该方法充分利用了内存总线广播的可扩展性以及广播机制的广泛适用性,为DIMM近存计算的通信优化提供了强有力的新工具。

报告人孙伟艺是论文第一作者(如图1所示),目前正在清华大学集成电路学院攻读博士学位。论文通讯作者是刘雷波教授,主要合作者还有李兆石、尹首一等。

清华软件定义芯片团队提出DIMM间广播技术,国际顶会ISCA 2021收录

△ 图1 孙伟艺同学报告论文的主要工作

当前,随着数据密集型应用的广泛部署,传统主存系统已难以应对日益增长的容量和带宽需求。为应对这一挑战,诸多近存计算架构被相继提出,其中基于DIMM的近存计算架构是公认最具潜力的架构之一(如图2所示)。

该架构把计算逻辑集成到DIMM的缓存芯片上,通过让内存通道内多个DIMM并行访存和计算,实现较高的总访存带宽,从而以较低的设计与生产代价获得较高的性能提升潜力。然而,DIMM近存计算系统的性能提升依赖于DIMM数量的增加,但现有DIMM间基于内存总线的点对点通信机制却可能严重制约系统性能相对于DIMM数量的可扩展性。

具体来说,当一个内存通道内DIMM数量增加时,每个DIMM分配到的平均点对点通信带宽迅速减小,对于许多重要的数据密集型应用,各个DIMM和CPU之间的通信主导了程序的运行时间,极大限制了系统的整体性能。

清华软件定义芯片团队提出DIMM间广播技术,国际顶会ISCA 2021收录

△ 图2 基于DIMM的近存计算架构

针对该问题,魏少军、刘雷波团队提出了DIMM间广播技术。

从硬件角度来看,总线系统在物理层面上天然支持广播,且主存总线的有效广播带宽随着DIMM数量的增加而自然扩展。而从软件角度来看,大量数据密集型应用都能以“广播主导”的方式实现。

基于上述想法,团队设计了ABC-DIMM系统,通过在主存中实现并利用“DIMM间广播”来消除DIMM近存计算架构中的通信瓶颈。该系统由三部分构成。

首先,团队设计了指导程序员以广播主导方式实现各类应用的“广播-计算”编程框架,从而让软件能够充分利用“DIMM间广播”来优化通信。如图3(a)所示,它通过分割输出来划分任务,而任务间的通信则由输入数据的广播所主导。

其次,团队提供了“内存通道内”和“内存通道间”的完整“DIMM间广播”机制,如图3(b)(c)所示。利用这些机制,“广播-计算”框架在多内存通道下的通信可以得到高效的实现,如图3(d)所示。

最后,团队为“DIMM间广播”机制提供了全栈式的硬件和API设计。为使系统实现尽可能地简单和低廉,团队将设计开销和范围成功控制在了DIMM缓存芯片以及CPU的内存控制器之内。具体而言,通过在缓存芯片中加入指令翻译模块,“DIMM间广播”能够在不更改DRAM芯片的前提下以新DDR指令的形式融入主存系统中。此外,通过对内存控制器的有限修改以及相应的API设计,“DIMM间广播”能够在不更改ISA的前提下被软件有效使用。

模拟评估显示,ABC-DIMM的平均性能分别达到了两个主流基线近存系统性能的2.50倍和2.93倍。

过去10余年,魏少军、刘雷波教授团队在软件定义芯片领域取得了多项重要技术突破,关键技术在多项国家重大工程中得到批量应用,曾获国家技术发明二等奖、教育部技术发明一等奖、电子学会技术发明一等奖、中国发明专利金奖、世界互联网大会15项世界互联网领先科技成果等。

清华软件定义芯片团队提出DIMM间广播技术,国际顶会ISCA 2021收录

△ 图3(a)“广播-计算”编程框架(b)内存通道内的广播机制

(c)内存通道间的广播机制(d)多内存通道下“广播-计算”框架通信部分的多核实现

关于ISCA

ISCA(International Symposium on Computer Architecture,国际计算机体系结构大会)是提出或发现计算机体系结构新思想、新方法和新成果的重要国际会议,被誉为计算机体系结构领域最权威的会议之一,与MICRO、HPCA 并称为体系结构三大顶会。超标量架构、多级缓存、同步多线程和缓存一致性等都在ISCA上首次被提出。自1973年以来,ISCA已成功举办48届。

—  —

版权所有,未经授权不得以任何形式转载及使用,违者必究。