2024-08-14
Innovation Highlights
1. 研究团队提出了“混淆-然后-证明”新技术,设计了新型TLS数据认证协议,无需对TLS服务器做任何修改,在恶意敌手模型下保护数据隐私和保证数据来源真实性;实验结果表明设计的协议提升通信效率14倍和计算效率10倍;以Coinbase的Web3应用和Twitter的Web2应用为例,实现了全球18个城市的秒级数据安全认证。
2. 通过利用梅森素数独特的数学形式,提出了新颖、高效的截断协议和按位比较协议,进而能够高效计算机器学习中非线形算子操作,如ReLU、Maxpool等激活函数;实验结果表明设计的协议具有良好的高效性和极佳的可扩展性。据统计,这是第一个在保护隐私机器学习领域实现如此大规模参与方的协议框架。即使在三方计算的模型中,其在线阶段的通信效率相较于此前最优的Falcon协议提高了至少1.4倍。
Achievements Summary
基于混淆-然后-证明技术的网页数据轻量级认证
传输层安全(TLS)协议为大部分网络应用建立了安全通道,但不能在保护数据隐私前提下向第三方证明数据来源的真实性。为解决该问题,ACM CCS 2020发表的DECO协议采用恶意敌手模型下安全两方计算设计了TLS数据认证协议,无需对TLS服务器做任何修改,针对恶意敌手保证了数据的隐私性和数据来源的真实性,但要求相当大的通信和计算开销。
郁昱团队提出了“混淆-然后-证明”新技术,设计了新型TLS数据认证协议,无需对TLS服务器做任何修改,达到了与DECO协议相同的安全性,避免了恶意敌手模型下安全两方计算协议的使用。在理想/现实模型下严格证明了提出协议的安全性。实验结果表明设计的协议提升通信效率14倍和计算效率10倍。
图1. 提出协议在不同网络带宽和延迟下的性能
图2. 提出协议与之前最有效协议DECO的性能比较
以Coinbase的Web3应用和Twitter的Web2应用为例,实现了全球18个城市的秒级数据安全认证。此外,提出了有效方法转化认证的TLS数据为加法同态承诺,为后续应用实现TLS数据的非交互零知识证明奠定了基础。
图3. 提出协议在全球18个城市实现数据安全认证的性能
郁昱团队提出的“混淆-然后-证明”技术为实现Web2和Web3应用数据隐私保护认证提供了新的设计思路,大幅度提升了之前同类协议的性能,为Web2和Web3应用数据的安全迁移奠定了理论基础,并提供了关键技术。相关成果收录于USENIX Security 2024中。本论文一作为原研究院研究员、PADO Labs公司谢翔。
基于安全多方计算技术的保护隐私机器学习协议框架
为了平衡机器学习中数据的有效利用和隐私保护,一种流行的方法是使用安全多方计算(MPC)技术实现保护隐私的机器学习(PPML),但现有的协议主要集中在2到4个参与方的设置中,比如IEEE SP 2017发表的SecureML协议框架能够在两方设置中安全计算多种计算机器学习算法;ACM CCS 2018发表的ABY3协议框架能够在三方设置下实现保护隐私机器学习。
在理论上,郁昱团队通过利用梅森素数独特的数学形式,基于Damgård和Nielsen在2007年提出的著名的DN协议保证协议框架能够应用于包含任意数量参与方的场景;同时郁昱团队提出了一些高效的MPC原语,包括仅具1比特间隙的截断原语及小数乘法原语,和无比特间隙要求的高效按位比较原语,这些优化后的MPC原语都仅具1轮的在线复杂。
对于截断原语,之前的许多工作都要求输入秘密值的取值范围大小远小于MPC协议中使用的模数大小,即秘密值和模数值间存在一个非常大的间隙(gap),以此保证截断结果的正确性和协议的统计安全性。另外一些工作虽然不需要这样的间隙要求,但其协议具有对数级别的轮复杂度。本工作充分利用了梅森素数的优良数学形式,即p=2^l-1的形式,将秘密值的取值范围和模数大小的间隙减小到仅有1比特,同时该截断协议的在线轮复杂度只有1轮,并且协议具有完美正确性。1比特间隙意味着可以在MPC协议中使用较小的模数或在同等模数下实现更高的计算精度,从而直接提高了计算效率和通信效率。值得注意的是,这是第一个在理论层面利用梅森素数数学性质来优化截断协议的工作。此外,该截断协议能够良好地和DN乘法协议相结合,从而得到一个仅有1轮在线复杂度的定点小数乘法协议。
对于比较原语,之前的许多工作都需要一个大间隙或是依赖于一些具有对数级轮复杂度的按比特运算子协议。郁昱团队提出了一种非常高效且简单的协议计算前缀或,其在线阶段的轮复杂度仅为1轮,具体来说,是通过计算前缀或问题的对偶问题——前缀与问题,前缀与问题可以通过已有的前缀乘法技术实现高效计算;郁昱团队进一步利用梅森素数的性质实现了高效的按比特比较协议,其在线阶段的轮复杂度同样为1轮,该协议没有任何间隙要求。需要注意的是,按比特比较协议是实现许多复杂非线形运算的基础,包括精确截断操作、数值上的比较操作,以及计算机器学习中广泛应用的ReLU激活函数和Maxpool函数等。
在应用上,郁昱团队基于上述优化后的截断原语和比较原语提出了计算非线性函数(及其梯度)更高效的方法,包括在神经网络中广泛应用的ReLU激活函数以及卷积网络(CNN)中的Maxpool函数。此外,郁昱团队进行了不同参与方数量(从3方到63方)设置下的神经网络隐私推测实验。例如,在63个参与方的设置下对4层卷积神经网络进行隐私推测,框架的在线阶段(预处理阶段)在LAN设置和WAN设置下的时间分别为0.4秒(2.4秒)和4.3秒(12.3秒)。据统计,这是第一个在PPML领域实现如此大规模参与方的协议框架。此外,即使在三方计算的模型中,其在线阶段的通信效率相较于此前最优的Falcon协议也提高了至少1.4倍。
图4. 提出协议在LAN设置下单次隐私推理的在线时间
图5. 提出协议在WAN设置下单次隐私推理的在线时间
图6. 提出协议与之前三方设置下最高效的Falcon协议的性能比较
该工作是第一个利用梅森素数独特数学性质优化截断原语和比较原语的研究,这些优化后的MPC原语可以直接黑盒使用在所有基于DN协议的 MPC应用,审稿人评价:“the paper challenges the state-of-the-art truncations and comparisons basically set up 13 years ago”;同时该工作也是第一个在PPML领域中实现大规模参与方设置下的隐私推理协议框架,为进一步实现高效的大规模参与方设置下的隐私训练奠定基础;相关成果收录于USENIX Security 2024中。本论文一作为研究院实习生、中国科学技术大学硕士刘冯润。
更多信息请阅读论文:
1. Lightweight Authentication of Web Data via Garble-Then-Prove, Xiang Xie, Kang Yang, Xiao Wang, Yu Yu, https://www.usenix.org/system/files/sec24fall-prepub-849-xie-xiang.pdf, USENIX Security 2024.
2. Scalable Multi-Party Computation Protocols for Machine Learning in the Honest-Majority Setting, Fengrun Liu, Xiang Xie, Yu Yu,
https://www.usenix.org/conference/usenixsecurity24/presentation/liu-fengrun.pdf, USENIX Security 2024.