选择语言
< 返回主菜单

基于随机掩码的参数高效微调

2024-07-13

Innovation Highlights

       张景昭团队提出使用随机掩码算法,以进一步简化算法设计与降低存储开销。实验结果表明,只需选择合适的学习率,随机掩码能在一些任务中取得与LoRA等算法相当的准确率。


Achievements Summary

基于随机掩码的参数高效微调

       微调是提升大型语言能力与安全性的重要步骤。参数高效微调通过减少参数训练量,大幅降低了微调的开销。针对特定任务进行参数微调是提高预训练模型性能的关键步骤。参数高效微调 (parameter efficient fine-tuning, PEFT) 通过在大模型中增加可训练轻量级模块,能显著降低微调算法的显存开销。为了探究参数高效微调算法的设计原理与性能极限,张景昭课题组研究了一种参数高效微调方法: 随机掩码 (Random Masking)。

图片

图3. 参数高效算法的性能与可训练参数量的关系。

Masking为本文提出的随机掩码算法

       随机掩码相较于现有的标准参数高效微调算法,例如LoRA,具有算法设计简单、训练参数量更少等特点。团队成员通过大规模实验发现,适当的学习率选择对随机掩码的成功至关重要,只需使用较大的学习率,随机掩码算法能在一些任务中取得与标准参数高效微调方法相当的性能。

图片

图4. 随机掩码算法的数学表示

图片

图5. 掩码方法示意图。红色网格表示可训练的参数,蓝色网格表示被冻结的参数


       团队成员对该现象给出了理论与实验分析,证明了随机掩码的出色性能得益于大语言模型强大的表达能力,以及掩码使损失函数更平滑,降低了优化难度。该论文提出的随机掩码算法不仅为参数高效微调方法的设计与分析提供了新思路,而且对降低大规模预训练模型的微调成本具有重要实际价值。相关成功收录于ICML 2024中。本论文一作为清华大学交叉信息研究院博士生许靖。


更多信息请阅读论文:

 Random Masking Finds Winning Tickets for Parameter Efficient Fine-tuning, Jing Xu, Jingzhao Zhang, http://arxiv.org/abs/2405.02596, ICML 2024.