深度强化学习被认为是实现通用人工智能(Artificial General Intelligence, AGI)的重要途径。近些年来,深度强化学习领域的发展,也带来了一次次重大的突破:例如,DeepMind公司在星际争霸和围棋项目上击败人类专业选手;OpenAI在Dota II游戏和机器人控制上采用强化学习完成突破,等等。然而所有这些突破背后,都依赖欧美公司内部,非开源的,大规模分布式强化学习系统,来进行大规模训练。
与经典的深度学习模型的大规模训练的大数据大模型范式不同,强化学习的策略模型往往并不会很大,也并不需要存储大量的给定数据。其中的难点在于,强化学习算法通过自我博弈和进化,与环境交互流式产生数据;强化学习算法的迭代也异常快速,需要系统能够对于不同算法有着高适应性;传统强化学习算法在大规模训练框架下也往往需要进一步的改进和修正。因此必须系统研究大规模强化学习的新范式,才能真正实现强化学习在中国的应用落地。
在这个项目里我们目标搭建高效率大规模强化学习系统,其中包含3个具体研究方向:
1. 通用高效的分布式计算后台
2. 灵活简洁的算法抽象
3. 适用于大规模计算的规模化强化学习算法