近期,上海期智研究院人工智能方向的陈建宇、高阳、许华哲三位PI科学家团队,3项突破性的科研成果被机器人领域难度最高的顶会Robotics: Science and Systems (RSS 2024)
陈建宇 成果收录于RSS 2024
陈建宇团队联合星动纪元在具身智能领域取得重要突破,提出了一种新颖的人形机器人学习算法框架DWL,有效去除真实世界噪声扰动,在全球范围内首次通过端到端RL和零样本仿真到真实转换,实现人形机器人通用适应各类复杂的现实世界地形。
高阳 成果收录于RSS 2024
高阳团队提出了策略学习的任意点轨迹模型 (Any-point Trajectory Modeling,ATM),通过预训练轨迹模型来预测视频帧内任意点的未来轨迹,从而利用视频为机器人提供演示。训练完成后,这些轨迹将提供详细的控制指导,实现小样本动作标签演示数据训练鲁棒的机器人操作策略。
许华哲 成果收录于RSS 2024
许华哲团队提出了一种新颖的视觉模仿学习方法 3D扩散策略 (DP3)。在涉及72个模拟任务的实验中,DP3仅通过10条演示数据就成功完成了大多数任务,并且相对于当前SOTA模型有24.2%的成功率相对提升。在4个非常具有挑战性的真机任务中,DP3展示了精确的控制能力。极大地提高了视觉模仿学习的学习效率和泛化能力。
高鸣宇 成果收录于ICML 2024
上海期智研究院PI、清华大学助理教授高鸣宇团队在隐私保护的机器学习一系列重要研究成果,成果收录在今年的ICML 2024中。
张景昭 成果收录于ICML 2024
上海期智研究院PI、清华大学助理教授张景昭团队在参数高效微调算法取得了重要研究成果,相关成果收录在今年的ICML 2024中。
房智轩 成果收录于ICML 2024
上海期智研究院PI、清华大学助理教授房智轩团队,近期在多臂老虎机算法等方面取得了一系列重要研究成果,成果收录在今年的ICML 2024中。
许华哲 成果收录于ICML 2024
上海期智研究院PI、清华大学助理教授许华哲团队,近期在强化学习的算法和理论创新方面取得了一系列成果。团队提出了因果感知熵正则化策略、逐点递归结构等方法,提高学习效率、探索效率和整体性能,对强化学习领域及机器人任务等复杂场景具有显著的应用价值。相关3项成果收录在今年的ICML 2024中,其中关于因果感知熵正则化策略ACE的论文被大会选为口头报告(Oral,录取率1.6%)。
袁洋 成果收录于ICML 2024
上海期智研究院PI、清华大学助理教授袁洋,近期在聚焦于自监督学习 (Self-Supervised Learning, SSL) 的理论和方法,尤其是在理解不同自监督学习方法的内在机制和提高学习效果方面取得了一系列重要研究成果。将矩阵信息理论应用于自监督学习中,以此来分析和改进学习方法,对自监督学习领域具有重要价值。相关2项成果收录在今年的ICML 2024中。
吴翼 成果收录于ICML 2024
上海期智研究院PI、清华大学助理教授吴翼团队,近期在大语言模型对齐、大模型策略智能体框架、自适应梯度策略优化等方面取得了一系列重要研究成果。对大模型与人类偏好对齐,及强化学习领域复杂决策制定具有重要价值。相关3项成果收录在今年的ICML 2024中,其中关于使用PPO算法进行大模型对齐训练的论文被大会选为口头报告 (Oral,录取率1.6%) 。
高阳 成果收录于ICML 2024
上海期智研究院PI、清华大学助理教授高阳团队团队提出EfficientZero V2算法,将EfficientZero的性能扩展到了多种领域,在有限数据设置下在各种任务中均以较大的优势超越了当前的SOTA。研究成果被2024年国际机器学习大会(ICML 2024)收录为Spotlight论文 (Top 3.5%)。
上海期智研究院PI、复旦大学教授李晓鹏团队开展了人工智能和量子多体动力学的交叉研究,发现两方面的研究彼此促进,相得益彰。一方面量子动力系统中的量子涨落和经典涨落为神经网络表达能力的提升提供了新的发展路
李晓鹏 成果收录于Communication Physics
要在量子神经网络中进行一般任务的学习,就需要引入非线性函数。目前通常的量子神经网络并不能很好地处理这种复杂情况,这也是量子机器学习亟需处理的问题。针对该问题,李晓鹏提出将随机性引入量子神经网络中,提出一种新型量子神经网络结构(Quantum Neural Networks, QNNs),拓展量子神经网络的表达能力。 如图1所示,其中灰色模块为量子神经网络随机层,由可训练的随机量子门系综构成;蓝色模块为量子神经网络确定层;最后量子神经网络测量结果输入到一个经典函数,最后即为输出结果。通过随机层的作用,最后
李晓鹏 成果收录于Phys. Rev. Letter
李晓鹏团队开展了人工智能提高量子精密测量探测灵敏度的研究。提出了一种全新的、完全基于数据驱动的方法来增强对弱信号的检测灵敏度,不依赖于对物理系统或感测过程的任何先验知识或假设。