选择语言
< 返回主菜单
06.jpg

泛化与自适应性的人工智能系统-

吴翼

课题介绍

我们在下列4个方向上取得重要进展:

① 可自适应与泛化性强化学习算法研发

传统强化学习算法着眼于单一环境内搜索最佳策略,缺乏泛化能力和自我调整能力。我们团队成员从全新的泛化性强化学习角度,研发新一代强化学习算法,目标让人工智能能够在训练完成之后自我更新迭代甚至不断自我创新,并动态调整自己的策略。

首先,我们基于归纳推理原则,提出了全新的,开放强化学习算法 (open-ended reinforcement learning algorithm),自我模仿归纳算法 (Self-Imitative Induction),可以在多个复杂的洗漱奖励任务中自我发现子目标并因此循环归纳,并最终解决领域中非常困难的决策和控制问题。

其次,我们考虑经典的多智能体信任博弈问题——猎鹿博弈(stag hunt game)——并分析了目前深度强化学习的根本性探索能力的缺陷,并提出了全新的探索方法,奖励随机化策略梯度算法RPG(Reward-Randomized Policy Gradient)。RPG算法可以在极其复杂的现实世界中的信任博弈类问题发现丰富多样的甚至是人完全想不到的复杂策略,并利用这些策略,训练可以根据对手策略动态调整决策的自适应人工智能。

最后,我们在博弈论框架中进一步深入研究,着眼于带有不确定性的零和游戏博弈,并提出了全新的基于时序规划的求解完美贝叶斯纳什均衡的新算法,时序归纳的自我博弈算法(temporal induced self-play)。该算法可以使得人工智能对于任何对手策略均执行最佳决策,有着强大的泛化性,也是领域中第一个实用的,可以求解完美贝叶斯纳什均衡的深度强化学习算法。

② 多智能体强化学习开源代码库

目前,该团队已经完成了达到多智能体强化学习领域内最佳表现的通用算法库MAPPO并完成开源。MAPPO库使用单一算法,不使用任何特殊算法技巧,就可以在现有的所有合作多智能体强化学习任务上,均达到或者接近领域最佳效果。

③ 机器人平台应用

机器人控制和交互是泛化性和自适应强化学习系统的重要应用,机器人平台需要硬件平台以及基础控制系统的软件搭建工作。软硬件的互联需要较大的工程基础工作,目前已经完成初步搭建,并通过强化学习算法完成了第一个机器人泛化性控制任务,自主设计搭桥。该任务中,机器人系统在模拟器中训练完成后,需要在现实世界中,根据现实中的不同搭桥材料以及搭桥要求,在没有给定目标的情况下,可以动态自主设计桥梁形态并完成搭建。

④ 多模态和多任务学习

人工智能应用要能真正落地现实世界,不光要能够进行决策,还必须要能够实现多模态融合和多任务学习和控制。团队中也进行了相关的研究,包括自然语言理解以及多任务强化学习等。

 重要科研设备

1630293867548895.png     

机器人是泛化性强化学习的重要应用平台,也是泛化性强化学习算法与系统真正落地的关键。目前,我们已采购X-Arm7 机械臂及组件一套。基于该机械臂硬件,我们已经初步完成软件算法和硬件控制的总体强化学习算法框架。