高鸣宇

上海期智研究院PI（2020年7月-至今）
清华大学副教授

个人主页

返回列表

高性能计算

科研方向

个人简介

上海期智研究院PI，清华大学交叉信息研究院副教授。

美国斯坦福大学电子工程系博士、硕士，清华大学微纳电子系学士。研究兴趣在计算机架构和系统领域，包括高效的内存架构、可扩展数据处理和硬件系统安全，特别强调数据密集型应用，如人工智能和大数据分析。已在包括ISCA、ASPLOS、MICRO、HPCA、OSDI、SIGMOD和VLDB在内的顶级会议上发表论文。定期在ISCA、MICRO、ASPLOS、HPCA等顶级会议的程序委员会中服务。

个人荣誉

IEEE Micro 2016年度计算机系统结构最佳论文奖（Top Picks）

三次欧洲HiPEAC论文奖

福布斯中国30位30岁以下精英（科学榜，2019年）

研究方向

存储系统架构：存算一体、异构内存、层级化内存等新型存储架构

硬件安全：密码学硬件加速和处理器可信执行环境等针对隐私计算的硬件支持

领域专用加速：人工智能、图计算、数据分析等领域专用硬件加速架构

亮点成果

成果8：动态神经网络专用加速架构—Adyna（2025年度）

与传统神经网络中静态的算子大小和模型结构不同，动态架构神经网络（简称动态神经网络）允许在运行时针对每个输入数据动态决定执行哪些计算，例如动态的算子数量、动态的算子形状、动态的数据处理路径等。著名的混合专家模型（MoE）就是一种动态神经网络。动态神经网络能够根据不同数据处理难度的差异来动态减少计算需求，在不牺牲模型精度的情况下节省不必要的计算。

由于动态神经网络通常将数据样本划分为更小的子集在模型的不同分支中执行，因此每个算子的计算负载会减少，适合令多个算子在空间上共享芯片资源。现有多租户（multi-tenant）神经网络加速器和多核（multi-tile）神经网络加速器具有这种潜力。然而，它们都缺乏某些关键特性，难以高效执行动态神经网络。

在本工作中，高鸣宇团队提出了Adyna，作为一种新颖的软硬件协同设计，用于高效支持动态神经网络推理。该工作在算法表示、数据流调度和硬件架构等多个层面做出了创新的贡献。

图. Adyna技术概览及工作流程

首先，为了支持多样化的动态神经网络类型，Adyna提出了一个新颖的统一表示方法，能够涵盖几乎所有已知的动态神经网络模型，包括动态模型深度、动态算子大小和动态执行路径。其次，Adyna利用了一种动态可感知的数据流调度器，基于频率加权的方法，根据每个动态算子形状的期望值来分配资源。同时，Adyna还具有进一步的优化措施，可以减少运行时瞬时负载变化以及极少使用的算子的资源空闲。再次，在当前最优的多核架构的基础上，Adyna在每个加速核中保存多个针对不同动态大小优化的核函数实现，并根据实际大小动态选择最佳匹配的核函数执行。为了减少大量核函数实现占用的片上存储空间，Adyna采用了“模板+元数据”的方式，将核函数大小减少到仅128字节。Adyna还增强了片上互连，以支持动态数据路由和多核之间的同步。最后，Adyna调度器采用了新颖的核函数采样算法，有效地选择最有可能匹配实际执行分布的核函数子集，进一步限制了硬件上核函数的存储大小。

图. Adyna所采用的统一的动态神经网络表示方法

图. Adyna的硬件架构

在具有四种动态行为的多种类型的动态神经网络上的评估结果表明，与多核和多租户架构相比，Adyna可实现平均1.70倍和1.57倍、最高2.32倍和2.01倍的性能提升。与理想情况相比，平均性能差距仅为13%。

-------------------------------------------------------------------------------------------------------------------------------

成果7：Seesaw：通过线性算子补偿非线性缺失的隐私保护机器学习推理（2024年度）

如何运用新技术防范黑客攻击，保护数据安全，并提升数据处理效率是亟待解决的问题。TEE环境下Path ORAM批量化加载算法Bulkor，高效图模式匹配框架PimPam，以及软硬件协同设计方案NDPBridge。

随着数据隐私越来越被重视，基于隐私保护的机器学习应运而生。由于需要使用加密技术来保护用户数据隐私，因此其计算开销非常大，而主要瓶颈来源于非线性激活函数（如ReLU和Sigmoid）的计算。虽然现有工作试图通过减少非线性运算的数量来降低计算开销，但这往往会导致模型精度下降，使得模型精度和执行延迟之间不可兼得。

近期，高鸣宇团队提出了一种用于隐私保护机器学习场景的神经网络架构搜索方法Seesaw，运用两种技术来解决上述困境：

（1）增加更多的线性运算以恢复模型的表征能力；

（2）通过残差连接重复使用已有的非线性运算的结果。

Seesaw在搜索过程中考虑了线性运算的数量对在线/离线延迟的影响，并采用了新的搜索和训练策略来高效探索扩大后的搜索空间，最终得到最优的神经网络架构。

图1. Seesaw检索空间的核心构建模块

实验证明，Seesaw能够显著提升模型精度与执行延迟之间的帕累托最优边界。在ImageNet上，相比最先进的同类工作SENet，Seesaw在相同71%精度下，在线延迟降低1.68倍；在相同190秒延迟下，精度提高3.65%。在CIFAR100上， Seesaw在相同70%精度下，在线延迟降低1.53倍；在相同8秒延迟下，精度提高0.25%。总之，Seesaw通过补偿非线性减少所带来的精度损失，突破了隐私保护机器模型中精度与延迟之间原有的折中，有助于更加高效地部署延迟敏感的应用。

图2. Seesaw的超模架构

Seesaw在保持相同准确性的同时显著降低了在线延迟，使用更简单快速的搜索和训练方法，为实际应用中的时间敏感场景提供了高效且准确的隐私保护机器学习模型，在医疗健康、金融服务、云计算平台等领域具有重要的应用价值。

论文信息：Compensating for Nonlinear Reduction with Linear Computations for Private Inference, Fabing Li, Yuanhao Zhai, Shuangyu Cai, Mingyu Gao, http://people.iiis.tsinghua.edu.cn/~gaomy/pubs/seesaw.icml24.pdf, ICML 2024.

-------------------------------------------------------------------------------------------------------------------------------

成果6：在近 DRAM Bank 处理架构中的跨 Bank 协调支持—NDPBridge（2024年度）

近数据处理架构是一条缓解内存墙问题、降低内存访问开销的重要技术路线。其中，近DRAM bank架构在DRAM bank附近集成计算逻辑，每个bank及其周围的计算逻辑构成独立单元，可以高效并行访问和处理数据。但是，近DRAM bank架构同样面临两点主要挑战。首先，不同的单元互相隔离，无法进行跨单元通信。此外，由于系统由上千个单元组成，单元间的负载均衡也需要得到高效支持。】

图1. OP-C2B 算法

高鸣宇团队与蒋力团队合作提出一种软硬件协同设计方案NDPBridge，在硬件层面，引入硬件桥，通过复用DRAM内部现有硬件接口和连线资源，在DRAM内部支持了跨bank传输。在软件层面，在上述硬件通讯机制基础上，他们设计了层次化和数据传输感知的调度方案，高效支持了跨单元负载均衡。

图2. NDPBridge中NDP单元和桥接部分的详细硬件结构

NDPBridge在性能、开销和适用性等方面具有显著优点，具体包括：

1. 相较于现有近DRAM bank处理方案，实现了平均2.23倍、最高2.98倍性能提升。

2. 硬件修改开销较小，对于DRAM内部芯片的尺寸和接口没有修改，且所有的修改均限制在现有的近数据处理产品修改过的硬件模块中。

3. 该架构对软件适配性较好，可应用至多种类型的应用和不同的数据规模。此外，由于该架构实现了自动的跨单元通信优化和负载均衡，大大降低了上层程序员的编程负担。

图3. 数据传输感知调度中的三个关键设计考虑因素

NDPBridge的成功实现不仅扩展了近bank NDP系统的应用范围，使其能够处理更复杂的应用场景，还为内存密集型应用提供了一种有效的解决方案，对于推动数据处理架构的发展具有重要意义。相关成果收录于ISCA 2024中。本论文一作为清华大学博士生田博宇。

-------------------------------------------------------------------------------------------------------------------------------

成果5：使能ORAM的批量化加载—BULKOR（2024年度）

可信执行环境的侧信道防御是一个广受关注的课题。高鸣宇团队发现对于最广泛存在的基于内存访问模式的侧信道攻击，其防御方式ORAM的初始化过程很少被研究。经过充分调研，团队发现其过程有着大量的应用场景，并提出使能ORAM的批量化加载算法Bulkor。相较于之前的工作，Bulkor在保证高安全性的情况下实现了大幅度的性能提升。该算法有助于ORAM在更多场景下的应用。

高鸣宇11.png

尽管现代加密和身份验证技术可以保护数据内容，但攻击者仍然可以通过仅观察敏感数据的访问模式来执行高级侧信道攻击，以获取私密信息。不经意随机访问存储（ORAM）协议，比如Path ORAM，是解决此问题的通用方案。ORAM可结合硬件安全技术例如可信执行环境（TEE），将客户端的部分控制逻辑放入TEE中，以减少网络通信成本。然而，与完全可信的客户端不同，TEE保护数据内容，但不保护其访问模式。在这种情况下，可信内存和不可信内存都需要做到不经意访问，这需要在TEE内设计更复杂的ORAM控制器。一些工作基于此设计了更高效的安全数据处理系统。但是很少有工作考虑到TEE环境下ORAM的初始化加载问题，此问题影响了ORAM的进一步应用。

由此，我们提出了一个名为Bulkor的TEE环境下Path ORAM批量化加载算法，它从一开始就完全独立且随机地分配Path ORAM中每个数据块的路径。然后它根据先前分配的路径，高效和不经意地调整ORAM树中每个数据块的实际位置，以消除任何容量溢出问题。在此过程中无需更改先前分配的路径，从而不影响安全性。另外，所有块的分配和位置调整这些过程都是在元数据上进行的，位置固定后将最终位置信息提供给原数据块，因此对于数据块我们只需做一次不经意排序，从而降低了性能开销。相对于之前的方案，该算法可将理论复杂度由Ο(Nlog3⁡N)降低到Ο(Nlog2N)。实验结果显示其实际性能显着优于先前系统Oblix和ZeroTrace，达8.7至54.6倍和5.8倍至533.1倍。

论文信息：BULKOR: Enabling Bulk Loading for Path ORAM，Xiang Li, Yunqian Luo, Mingyu Gao

论文链接：https://people.iiis.tsinghua.edu.cn/~gaomy/pubs/bulkor.s&p24.pdf

-------------------------------------------------------------------------------------------------------------------------------

成果4：面向持久内存的融合基数树与可扩展哈希的索引结构（2023年度）

现代数据密集型应用逐渐开始转向基于新型持久存储器件的内存系统，并通过将关键数据结构移植到持久内存上来持续保持其高性能。其中一个例子是用于支持高效数据查询和更新的索引结构。近期有许多关于面向持久内存上索引结构的特定优化，主要研究重点均是减少持久数据的昂贵写入代价。我们重新审视了之前的设计在真实的持久内存器件（英特尔傲腾，Intel Optane）上的表现，发现在基于树结构的索引中，以数据读取为主的树型结构遍历和树节点内搜索占据了整体延迟的主导地位。

因此，我们提出了一种针对持久内存特定优化的索引结构，名为“可扩展基数树”（Extendible Radix Tree，ERT）。该索引结构可以显著减少树的高度以最小化随机读取开销，同时仍然保持快速的节点内搜索速度。其关键思想是对基数树中的每个节点使用可扩展哈希，以允许我们增大基数树的分支扇出而减小树的高度，并且在节点内通过哈希结构实现常数时间的查找。使用可扩展哈希还允许在插入和更新期间对节点进行增量修改而不产生过多的写入。通过在每个节点的哈希表中保持键值之间的部分顺序，可以有效而稳健地处理范围查询请求，而不引入过多的哈希冲突。实验结果表明，该索引结构相对于当前最先进的持久内存索引结构可实现2至4倍的速度提升。

2023高鸣宇成果照片3.jpg

研究领域：存储系统架构

研究论文：Ke Wang, Guanqun Yang, Yiwei Li, Huanchen Zhang, Mingyu Gao, “When Tree Meets Hash: Reducing Random Reads for Index Structures on Persistent Memories”, SIGMOD 2023. 查看PDF

-------------------------------------------------------------------------------------------------------------------------------

成果3：近存计算系统中远程访问和负载均衡的协同优化（2023年度）

在“内存墙”时代，采用近存计算的系统架构设计范式可缓解数据密集型应用的内存访问瓶颈。基于3D内存的近存计算系统通常由大量并行的处理单元组成。当前此类系统存在两个主要问题，即远程内存访问的高昂开销和负载不均衡带来的性能下降。这两个问题互相关联耦合，在解决时需要做权衡取舍，现有方案在缓解其中一个问题时往往会导致另一个问题的进一步恶化。

我们提出了一个协同优化远程内存访问问题和负载均衡问题的近存计算架构。为了实现更加灵活的数据和计算调度，我们使用了一个基于细粒度任务的编程模型和执行模型。我们在该任务模型中封装了每个任务的访问数据信息和计算负载信息，为数据缓存和计算调度提供了便利。在此基础上，我们提出了两点优化。为了减少远程内存访问的开销，我们提出了一个分布式的DRAM缓存方案，通过把数据复制在更近的位置来减少远程访问开销。我们还提出了一个综合考虑远程内存访问和负载均衡的调度算法，此调度算法和缓存方案协同设计，能够灵活利用数据复制带来的新的调度机会。该系统相比传统近存计算系统可达到平均1.7倍的性能提升和25%的能耗节省。

2023高鸣宇成果照片2.jpg.png

研究领域：存储系统架构

研究论文：Boyu Tian, Qihang Chen, Mingyu Gao, “ABNDP: Co-optimizing Data Access and Load Balance in Near-Data Processing”, ASPLOS 2023. 查看PDF

-----------------------------------------------------------------------------------------------------------------------------

成果2：大容量、高性能、兼具计算能力的新型内存架构（2023年度）

数据存储系统是大数据和人工智能时代高性能计算机系统的必要组成部分。数据处理算法的多样化和数据量的快速增长需要计算机系统提供低成本的存储单元和高速的访问方式，以克服目前计算系统中的“内存墙（Memory Wall）”问题。本成果提出了大容量、高性能、兼具计算能力的新型内存架构，主要围绕“DRAM+NVM异构内存”与“近存计算架构”两条技术路线。

第一，“DRAM+NVM异构内存”在传统DRAM内存中引入非易失性存储（NVM），由DRAM提供高性能数据访问，由NVM提供大容量数据存储。在硬件层面，本成果提出了基于压缩和分块的高效率异构内存管理系统，同时提高了内存访问带宽利用率和存储容量利用率，相比现有系统可达到平均1.27倍、最高1.74倍性能提升。在软件层面，本成果提出了针对NVM存储优化的高效索引结构，通过融合基数树和可扩展哈希，同时提升树型结构遍历和树节点内搜索的速度，显著优化了索引结构访问性能，相比现有系统达到2至4倍性能提升。

第二，“近存计算架构”利用3D芯片堆叠工艺，使计算单元尽可能靠近存储单元，以避免长途的高代价数据传输。然而，此类系统中存在两个互相关联耦合的问题，即远程内存访问的高昂开销和负载不均衡带来的性能下降。本成果提出了一个协同优化远程内存访问和负载均衡的近存计算架构。通过结合细粒度任务执行模型、分布式DRAM缓存方案、综合考虑远程内存访问和负载均衡的调度算法，该系统相比传统方案可达到平均1.7倍的性能提升和25%的能耗节省。

该成果相关论文发表于计算机系统领域国际顶会ASPLOS、HPCA、SIGMOD等。同时本成果实现并部分开源了一系列硬件仿真和软件系统代码；完成了基于真实FPGA平台的硬件原型系统验证；并与相关企业进行了深入交流与合作。

-----------------------------------------------------------------------------------------------------------------------------

成果1：支持压缩和分块的高效异构内存架构（2022年度）

通过结合多种带宽性能和存储密度特点的存储技术，异构内存架构（hybrid memory）可同时支持大容量和高性能，是大数据和人工智能算法的理想选择。目前典型的异构内存架构一般将传统DRAM作为快存，将新型非易失存储器（NVM）作为慢存。然而，现有基于替换算法设计的工作在慢存带宽利用率和快存容量利用率上只能互相权衡。为了提高异构内存系统的性能和效率，高鸣宇团队提出了使用分块（sub-blocking）和压缩（compression）技术同时提高两方面利用率，达到比之前工作更优的性能。分块技术将数据块细分为更小粒度的子块，只传输和缓存所需的子块。压缩技术将低熵数据块以压缩子块的粒度储存和传输。两种技术均采用纯硬件管理机制，无需修改上层应用，且消除了操作系统虚拟内存管理的粗粒度和缺页中断的高开销。然而，支持压缩和分块带来了更高的元数据存储开销和更复杂可变的数据布局管理挑战。团队进一步提出了“暂存区”的概念以适应数据布局在初始阶段的多变性；同时利用数据布局在稳定状态的不变性、压缩局部性等实验观察，简化元数据格式和大小。该系统相比当前最佳工作可达到平均1.27倍、最高1.74倍性能提升。该研究成果以“Baryon: Efficient Hybrid Memory Management with Compression and Sub-Blocking”为题发表于计算机系统结构领域四大顶会之一的高性能计算架构大会（HPCA）。

高鸣宇2022.png

论文发表

11. Compensating for Nonlinear Reduction with Linear Computations for Private Inference, Fabing Li, Yuanhao Zhai, Shuangyu Cai, Mingyu Gao, http://people.iiis.tsinghua.edu.cn/~gaomy/pubs/seesaw.icml24.pdf, ICML 2024.

10. PimPam: Efficient Graph Pattern Matching on Real Processing-in-Memory Hardware, Shuangyu Cai, Boyu Tian, Huanchen Zhang, and Mingyu Gao, SIGMOD 2024.

9. NDPBridge: Enabling Cross-Bank Coordination in Near-DRAM-Bank Processing Architectures, Boyu Tian, Yiwei Li, Li Jiang, Shuangyu Cai, and Mingyu Gao, ISCA 2024.

8. Xiang Li, Yunqian Luo, Mingyu Gao, BULKOR: Enabling Bulk Loading for Path ORAM, IEEE S＆P 2024

7. Cheng Wang, Mingyu Gao, SAM: A Scalable Accelerator for Number Theoretic Transform Using Multi-Dimensional Decomposition, ICCAD, 2023 查看PDF

6. Ke Wang, Guanqun Yang, Yiwei Li, Huanchen Zhang, Mingyu Gao, When Tree Meets Hash: Reducing Random Reads for Index Structures on Persistent Memories, SIGMOD, 2023 查看PDF

5.Yiwei Li, Mingyu Gao, Baryon: Efficient Hybrid Memory Management with Compression and Sub-Blocking, HPCA, 2023 查看PDF

4. Boyu Tian, Qihang Chen, Mingyu Gao, ABNDP: Co-optimizing Data Access and Load Balance in Near-Data Processing, ASPLOS, 2023 查看PDF

3. Zhiyao Li, Jiaxiang Li, Taijie Chen, Dimin Niu, Hongzhong Zheng, Yuan Xie, Mingyu Gao, Spada: Accelerating Sparse Matrix Multiplication with Adaptive Dataflow, ASPLOS, 2023 查看PDF

2. Xiang Li, Nuozhou Sun, Yunqian Luo, Mingyu Gao, SODA: A Set of Fast Oblivious Algorithms in Distributed Secure Data Analytics, VLDB, 2023 查看PDF

1. Xiang Li, Fabing Li, Mingyu Gao, Flare: A Fast, Secure, and Memory-Efficient Distributed Analytics Framework, VLDB, 2023 查看PDF