上海期智研究院PI,清华大学交叉信息研究院助理教授。
2012年毕业于北京大学计算机系,2018年获得美国康奈尔大学计算机博士学位,师从Robert Kleinberg教授。于2014年-2015年前往微软新英格兰研究院做访问学生,并于2016年秋季前往美国普林斯顿大学做访问学生。2018-2019年前往麻省理工学院大数据科学学院 (MIFODS) 做博士后。主要研究方向是智能医疗、AI基础理论、应用范畴论。
个人荣誉
北京智源青年科学家(2020年)
福布斯中国30位30岁以下精英(科学榜,2019年)
AI基础理论:基于范畴论、拓扑斯理论,为人工智能构建基础理论,指导算法设计,探索大模型能力边界
AI自动证明:构建能够自动做数学证明的大模型
成果3:使用范畴论刻画大模型的能力边界
假如我们有无限的资源,比如有无穷多的数据,无穷大的算力,无穷大的模型,完美的优化算法与泛化表现,请问由此得到的预训练模型是否可以用来解决一切问题?这是一个大家都非常关心的问题,但已有的机器学习理论却无法回答。范畴论被称为是数学的数学,是一门研究结构与关系的学问,它可以看作是集合论的一种自然延伸:在集合论中,一个集合包含了若干个不同的元素;在范畴论中,我们不仅记录了元素,还记录了元素与元素之间的关系。上海期智研究院袁洋团队创新地引入了范畴论作为理论工具,针对预训练任务进行重新建模,构建了预训练任务与范畴内部结构的等价关系。从这个角度出发,重新审视了监督学习的理论框架,并且针对预训练模型证明了三个定理。
第一个定理证明了,如果使用提示调优的方式,预训练模型的能力和任务结构有关。一个任务能够被解决,当且仅当该任务能够被范畴中的某个对象表出。
第二个定理证明了,如果使用微调的方式,预训练模型的能力不再受范畴内对象表出能力的限制。预训练模型得到的特征向量可以完美地保留原范畴的信息,在使用高质量的训练数据、充足算力的前提下,预训练模型有潜力解决各种任务。
第三个定理证明了,基于源范畴中对象的结构,预训练模型天然拥有在目标范畴中生成从未见过的对象的能力。换句话说,大模型拥有创造力。
这些结论基于范畴论的核心公式:T(X)≜k_f (f(X),T),为人工智能与现代数学构建起了一座桥梁。相关成果以“On the Power of Foundation Models”为题发表在国际顶会ICML'2023上。为众多通用人工智能前进之路上的同行们提供了新思路。
------------------------------------------------------------------------------------------------------------------------------
成果2:传统可解释性的不可能三角
主流的可解释性算法(例如SHAP、LIME或者其他衍生算法)都可以看作是基于移除算法的可解释性算法,即通过观察原模型在移除某些特征之后的变化来判断不同特征的重要性。然而,这些算法往往过于关于原模型在原输入上的表现,而忽视了全局的一致性。本文证明了可解释性的不可能三角,即使用小的模型解释原模型,不可能既做到全局的一致性,又做到解释的有效性。由于不可能三角的存在,我们提出了一种新的可解释型误差度量,用于度量在全局一致性与有效性。在这个基础上,我们设计了基于布尔泛函分析技术的新算法,用于最小化可解释性误差。实验表明,新的算法在我们提出的误差度量下比已有的算法有最高31.8倍的性能提升。
研究论文:Trade-off Between Efficiency and Consistency for Removal-based Explanations, Yifan Zhang, Haowei He, Zhiquan Tan, Yang Yuan, NeurIPS 2023. 查看PDF
项目网站:https://arxiv.org/pdf/2210.17426v3.pdf
------------------------------------------------------------------------------------------------------------------------------
成果1:基于轨迹分解的泛化分析
泛化理论分析是人工智能理论中最基础的问题之一,旨在探究充分训练条件下测试误差的界限。经过多年的探索,人们发现传统的泛化技术无法有效解释神经网络的泛化现象,这迫使我们提供更多泛化领域的见解。袁洋科研团队创新地将信号与噪声的不同分析纳入泛化分析范畴,并提升了原有的泛化界。具体而言,通过显式地考虑信号与噪声在泛化中的不同表现,袁洋团队发现不同技术擅长于不同背景,并以此提出一种基于轨迹误差分解的泛化分析框架。由于对信号与噪声的更细致的分析,人们可以混合多种泛化技术来处理泛化问题,各个技术取长补短,从而推导出更精细的泛化界。实例分析表明,在线性与非线性的背景下,该框架都可以有效提升原有泛化界。同时,实验结果证实新框架下推导出的泛化界更加符合实际情况。该成果以“Towards Understanding Generalization via Decomposing Excess Risk Dynamics”为题发表于2022年ICLR会议中。
图. 原始误差 (ER) 与分解后误差 (BER, VER) 对比。
8. Jing Xu, Jiaye Teng, Yang Yuan, Andrew C. Yao, Towards Data-Algorithm Dependent Generalization: a Case Study on Overparameterized Linear Regression, Conference on Neural Information Processing Systems (NeurIPS), 2023 查看PDF
7. Yifan Zhang, Haowei He, Zhiquan Tan, Yang Yuan, Trade-off Between Efficiency and Consistency for Removal-based Explanations, Conference on Neural Information Processing Systems (NeurIPS), 2023 查看PDF
6. Yang Yuan, On the Power of Foundation Models, International Conference on Machine Learning (ICML), 2023 查看PDF
5. Chenzhuang Du, Jiaye Teng, Tingle Li, Yichen Liu, Tianyuan Yuan, Yue Wang, Yang Yuan, Hang Zhao, On Uni-Modal Feature Learning in Supervised Multi-Modal Learning, International Conference on Machine Learning (ICML), 2023 查看PDF
4. Jiaye Teng, Bohang Zhang, Ruichen Li, Haowei He, Yequan Wang, Yan Tian, Yang Yuan, Finding Generalization Measures by Contrasting Signal and Noise, International Conference on Machine Learning (ICML), 2023 查看PDF
3. Jiaye Teng*, Chuan Wen*, Dinghuai Zhang*, Yoshua Bengio, Yang Gao, Yang Yuan, Predictive Inference with Feature Conformal Prediction, International Conference on Learning Representations (ICLR), 2023 查看PDF
2. Jiaye Teng, Jianhao Ma, Yang Yuan, Towards Understanding Generalization Via Decomposing Excess Risk Dynamics, International Conference on Learning Representations(ICLR), 2022.
1. Jiaye Teng , Zeren Tan , Yang Yuan, T-SCI: A Two-Stage Conformal Inference Algorithm with Guaranteed Coverage for Cox-MLP, International Conference on Machine Learning(ICML), 2021