上海期智研究院PI,清华大学交叉信息研究院助理教授。
美国斯坦福大学电子工程系博士、硕士,清华大学微纳电子系学士。研究方向为计算机体系结构与系统,尤其关注针对人工智能和大数据分析等数据密集型应用的新型存储架构、专用计算系统、硬件系统安全等方面。已发表多篇国际顶级学术会议(ISCA、ASPLOS、HPCA、PACT等)论文。
个人荣誉
IEEE Micro 2016年度计算机系统结构最佳论文奖(Top Picks)
三次欧洲HiPEAC论文奖
福布斯中国30位30岁以下精英(科学榜,2019年)
存储系统架构:存算一体、异构内存、层级化内存等新型存储架构
硬件安全:密码学硬件加速和处理器可信执行环境等针对隐私计算的硬件支持
领域专用加速:人工智能、图计算、数据分析等领域专用硬件加速架构
成果4:面向持久内存的融合基数树与可扩展哈希的索引结构
现代数据密集型应用逐渐开始转向基于新型持久存储器件的内存系统,并通过将关键数据结构移植到持久内存上来持续保持其高性能。其中一个例子是用于支持高效数据查询和更新的索引结构。近期有许多关于面向持久内存上索引结构的特定优化,主要研究重点均是减少持久数据的昂贵写入代价。我们重新审视了之前的设计在真实的持久内存器件(英特尔傲腾,Intel Optane)上的表现,发现在基于树结构的索引中,以数据读取为主的树型结构遍历和树节点内搜索占据了整体延迟的主导地位。
因此,我们提出了一种针对持久内存特定优化的索引结构,名为“可扩展基数树”(Extendible Radix Tree,ERT)。该索引结构可以显著减少树的高度以最小化随机读取开销,同时仍然保持快速的节点内搜索速度。其关键思想是对基数树中的每个节点使用可扩展哈希,以允许我们增大基数树的分支扇出而减小树的高度,并且在节点内通过哈希结构实现常数时间的查找。使用可扩展哈希还允许在插入和更新期间对节点进行增量修改而不产生过多的写入。通过在每个节点的哈希表中保持键值之间的部分顺序,可以有效而稳健地处理范围查询请求,而不引入过多的哈希冲突。实验结果表明,该索引结构相对于当前最先进的持久内存索引结构可实现2至4倍的速度提升。
研究领域:存储系统架构
研究论文:Ke Wang, Guanqun Yang, Yiwei Li, Huanchen Zhang, Mingyu Gao, “When Tree Meets Hash: Reducing Random Reads for Index Structures on Persistent Memories”, SIGMOD 2023. 查看PDF
-------------------------------------------------------------------------------------------------------------------------------
成果3:近存计算系统中远程访问和负载均衡的协同优化
在“内存墙”时代,采用近存计算的系统架构设计范式可缓解数据密集型应用的内存访问瓶颈。基于3D内存的近存计算系统通常由大量并行的处理单元组成。当前此类系统存在两个主要问题,即远程内存访问的高昂开销和负载不均衡带来的性能下降。这两个问题互相关联耦合,在解决时需要做权衡取舍,现有方案在缓解其中一个问题时往往会导致另一个问题的进一步恶化。
我们提出了一个协同优化远程内存访问问题和负载均衡问题的近存计算架构。为了实现更加灵活的数据和计算调度,我们使用了一个基于细粒度任务的编程模型和执行模型。我们在该任务模型中封装了每个任务的访问数据信息和计算负载信息,为数据缓存和计算调度提供了便利。在此基础上,我们提出了两点优化。为了减少远程内存访问的开销,我们提出了一个分布式的DRAM缓存方案,通过把数据复制在更近的位置来减少远程访问开销。我们还提出了一个综合考虑远程内存访问和负载均衡的调度算法,此调度算法和缓存方案协同设计,能够灵活利用数据复制带来的新的调度机会。该系统相比传统近存计算系统可达到平均1.7倍的性能提升和25%的能耗节省。
研究领域:存储系统架构
研究论文:Boyu Tian, Qihang Chen, Mingyu Gao, “ABNDP: Co-optimizing Data Access and Load Balance in Near-Data Processing”, ASPLOS 2023. 查看PDF
-----------------------------------------------------------------------------------------------------------------------------
成果2:大容量、高性能、兼具计算能力的新型内存架构
数据存储系统是大数据和人工智能时代高性能计算机系统的必要组成部分。数据处理算法的多样化和数据量的快速增长需要计算机系统提供低成本的存储单元和高速的访问方式,以克服目前计算系统中的“内存墙(Memory Wall)”问题。本成果提出了大容量、高性能、兼具计算能力的新型内存架构,主要围绕“DRAM+NVM异构内存”与“近存计算架构”两条技术路线。
第一,“DRAM+NVM异构内存”在传统DRAM内存中引入非易失性存储(NVM),由DRAM提供高性能数据访问,由NVM提供大容量数据存储。在硬件层面,本成果提出了基于压缩和分块的高效率异构内存管理系统,同时提高了内存访问带宽利用率和存储容量利用率,相比现有系统可达到平均1.27倍、最高1.74倍性能提升。在软件层面,本成果提出了针对NVM存储优化的高效索引结构,通过融合基数树和可扩展哈希,同时提升树型结构遍历和树节点内搜索的速度,显著优化了索引结构访问性能,相比现有系统达到2至4倍性能提升。
第二,“近存计算架构”利用3D芯片堆叠工艺,使计算单元尽可能靠近存储单元,以避免长途的高代价数据传输。然而,此类系统中存在两个互相关联耦合的问题,即远程内存访问的高昂开销和负载不均衡带来的性能下降。本成果提出了一个协同优化远程内存访问和负载均衡的近存计算架构。通过结合细粒度任务执行模型、分布式DRAM缓存方案、综合考虑远程内存访问和负载均衡的调度算法,该系统相比传统方案可达到平均1.7倍的性能提升和25%的能耗节省。
该成果相关论文发表于计算机系统领域国际顶会ASPLOS、HPCA、SIGMOD等。同时本成果实现并部分开源了一系列硬件仿真和软件系统代码;完成了基于真实FPGA平台的硬件原型系统验证;并与相关企业进行了深入交流与合作。
-----------------------------------------------------------------------------------------------------------------------------
成果1:支持压缩和分块的高效异构内存架构
通过结合多种带宽性能和存储密度特点的存储技术,异构内存架构(hybrid memory)可同时支持大容量和高性能,是大数据和人工智能算法的理想选择。目前典型的异构内存架构一般将传统DRAM作为快存,将新型非易失存储器(NVM)作为慢存。然而,现有基于替换算法设计的工作在慢存带宽利用率和快存容量利用率上只能互相权衡。为了提高异构内存系统的性能和效率,高鸣宇团队提出了使用分块(sub-blocking)和压缩(compression)技术同时提高两方面利用率,达到比之前工作更优的性能。分块技术将数据块细分为更小粒度的子块,只传输和缓存所需的子块。压缩技术将低熵数据块以压缩子块的粒度储存和传输。两种技术均采用纯硬件管理机制,无需修改上层应用,且消除了操作系统虚拟内存管理的粗粒度和缺页中断的高开销。然而,支持压缩和分块带来了更高的元数据存储开销和更复杂可变的数据布局管理挑战。团队进一步提出了“暂存区”的概念以适应数据布局在初始阶段的多变性;同时利用数据布局在稳定状态的不变性、压缩局部性等实验观察,简化元数据格式和大小。该系统相比当前最佳工作可达到平均1.27倍、最高1.74倍性能提升。该研究成果以“Baryon: Efficient Hybrid Memory Management with Compression and Sub-Blocking”为题发表于计算机系统结构领域四大顶会之一的高性能计算架构大会(HPCA)。
11. Compensating for Nonlinear Reduction with Linear Computations for Private Inference, Fabing Li, Yuanhao Zhai, Shuangyu Cai, Mingyu Gao, http://people.iiis.tsinghua.edu.cn/~gaomy/pubs/seesaw.icml24.pdf, ICML 2024.
10. PimPam: Efficient Graph Pattern Matching on Real Processing-in-Memory Hardware, Shuangyu Cai, Boyu Tian, Huanchen Zhang, and Mingyu Gao, SIGMOD 2024.
9. NDPBridge: Enabling Cross-Bank Coordination in Near-DRAM-Bank Processing Architectures, Boyu Tian, Yiwei Li, Li Jiang, Shuangyu Cai, and Mingyu Gao, ISCA 2024.
8. Xiang Li, Yunqian Luo, Mingyu Gao, BULKOR: Enabling Bulk Loading for Path ORAM, IEEE S&P 2024
7. Cheng Wang, Mingyu Gao, SAM: A Scalable Accelerator for Number Theoretic Transform Using Multi-Dimensional Decomposition, ICCAD, 2023 查看PDF
6. Ke Wang, Guanqun Yang, Yiwei Li, Huanchen Zhang, Mingyu Gao, When Tree Meets Hash: Reducing Random Reads for Index Structures on Persistent Memories, SIGMOD, 2023 查看PDF
5.Yiwei Li, Mingyu Gao, Baryon: Efficient Hybrid Memory Management with Compression and Sub-Blocking, HPCA, 2023 查看PDF
4. Boyu Tian, Qihang Chen, Mingyu Gao, ABNDP: Co-optimizing Data Access and Load Balance in Near-Data Processing, ASPLOS, 2023 查看PDF
3. Zhiyao Li, Jiaxiang Li, Taijie Chen, Dimin Niu, Hongzhong Zheng, Yuan Xie, Mingyu Gao, Spada: Accelerating Sparse Matrix Multiplication with Adaptive Dataflow, ASPLOS, 2023 查看PDF
2. Xiang Li, Nuozhou Sun, Yunqian Luo, Mingyu Gao, SODA: A Set of Fast Oblivious Algorithms in Distributed Secure Data Analytics, VLDB, 2023 查看PDF
1. Xiang Li, Fabing Li, Mingyu Gao, Flare: A Fast, Secure, and Memory-Efficient Distributed Analytics Framework, VLDB, 2023 查看PDF