赵行

上海期智研究院PI（2020年7月-至今）
清华大学助理教授

个人主页

返回列表

人工智能

科研方向

个人简介

上海期智研究院PI，清华大学交叉信息研究院助理教授。

博士毕业于麻省理工学院MIT，后于谷歌无人车项目Waymo担任研究科学家。其研究领域涵盖多模态学习，自动驾驶和机器人。提出了自动驾驶中一系列框架型的工作，为行业大多数公司所使用或借鉴。曾获智能机器人顶会CoRL2023最佳系统论文提名Top3，ICCP最佳论文奖，福布斯中国30Under30。曾担任ICLR大会联席主席，NeuRIPS/ICCV领域主席。

个人荣誉：

福布斯中国30位30岁以下精英（科学榜，2020年）

Snap Research Fellowship 2019

ICCP最佳论文奖 2015

MIT Rohsenow Fellowship 2013

研究方向

多模态学习：贯通图像、文本、声音、视频等模态信号的多模态生成模型

自动驾驶：下一代以视觉为中心、数据驱动的自动驾驶技术

机器人学：视觉驱动的足式机器人导航和敏捷运动

亮点成果

成果7：人形机器人跑酷（2024年度）

自从四足机器人的高动态强化学习让四足机器人的运动能力和通过性远超传统轮式机器人，人形机器人虽然有各种各样的硬件被设计制造了出来，但是运动控制算法大多局限在平地或者平缓的小台阶范围。这因为之前的强化学习算法大多依赖一个预先设定好的平地行走的动作参考，或者手动设计平地行走的关键运动学参数。这些方法逼迫双足机器人在任何需要移动的时候都必须抬脚，并且需要设计新的参考动作才能完成更加复杂的移动通过任务。赵行团队提出让人形机器人的移动，可以像最简单的训练机器狗一样，并且可以结合机载视觉系统，让人形机器人通过极度复杂，甚至不连续的地形。

团队创新借鉴了四足机器人上常用的分型噪声生成粗糙的地形，加上基础的强化学习奖励函数，让人形机器人能够自主产生稳定性走的步态，从而省去了设计针对某种机器人型号的动作参考的巨大工作量，让人形机器人的移动算法回归简单的实现方式。

图1. 用Perlin Noise在不同地形上产生粗糙的表面，用scan dot作为expert policy对环境感知的方法

此外，团队还验证了人形机器人在移动操作中的可能性。即使本次工作的神经网络是训练用于同时控制上肢和下肢，在复写上肢动作后，下肢仍然能够成功的保持平衡，并且根据遥操作指令准确执行上肢动作。为进行复杂的地形移动同时上肢进行操作的需求提供了可行性参考。

图2. 使用远程操作设置覆盖跑酷策略的动作

该研究推动了人形机器人在敏捷性、自主性和多任务能力方面的发展，为未来人形机器人在搜索救援、娱乐表演甚至日常生活中的应用奠定了基础。本论文一作为研究院实习生、清华大学交叉信息院博士生庄子文，通讯作者为清华大学交叉信息院助理教授赵行。共同作者为研究院实习生、上海科技大学本科生姚屾喆。

论文信息：Humanoid Parkour Learning, Ziwen Zhuang, Shenzhe Yao, Hang Zhao†, https://openreview.net/forum?id=fs7ia3FqUM, CoRL 2024.

------------------------------------------------------------------------------------------------------------------------------

成果6：PreSight：利用神经辐射场先验帮助自动驾驶场景的在线感知（2024年度）

今天的自动驾驶系统通常仅依靠在线传感器数据实现实时环境感知，而缺乏高效地利用过去观测数据的手段。与之相比，人类驾驶员在开车时会记住自己所开过的路段，在熟悉的道路上越开越好。为此，赵行团队设计了新的感知框架PreSight，通过构建城市级神经辐射场（NeRF），对过去的观测数据加以利用，重建城市级先验知识，增强下次经过同一路段时在线感知模型的表现。

图1. PreSight方法概览

团队首先提出分块重建的思路，从而实现使用百万数量级图片构建数公里级的城市级NeRF。引入基础视觉模型DINO的知识，构建包含可泛化语义信息的场景先验。设计了一种即插即用的融合模块，可以有效地将构建好的场景先验和在线观测进行融合，能够与任意一种基于BEV的在线感知进行组合，提升其感知能力。最后，在nuScenes数据集上设计实验，证明了该方法能在局部高清地图感知、占据栅格 (Occupancy) 预测任务上有效提升模型表现。

图2. PreSight对Occupancy预测任务的提升

图3. PreSight对局部高清地图感知任务的提升

图4. PreSight对环境几何信息的精确重建帮助在线感知

PreSight框架首次提出了使用过去观测信息重建可泛化的城市级先验，为解决自动驾驶在线感知难的问题提供了新的思路，具有重要的理论和实践价值。

论文信息：PreSight: Enhancing Autonomous Vehicle Perception with City-Scale NeRF Priors, Tianyuan Yuan, Yucheng Mao, Jiawei Yang, Yicheng Liu, Yue Wang, Hang Zhao†, https://arxiv.org/abs/2403.09079, ECCV 2024

------------------------------------------------------------------------------------------------------------------------------

成果5：视觉为中心的自动驾驶技术（2024年度）

赵行团队在离线强化学习能够超越专家性能、无需危险环境交互的特性，提出了HsO-VP框架，实现了纯粹基于离线数据的长程运动规划。框架通过变分自编码器(VAE)从离线演示中学习技能，解决自动驾驶中的长期规划问题。设计了双分支序列编码器，有效应对后验坍塌问题。为自动驾驶车辆规划提供了一种新的强化学习方法。

赵行11.png

近来伴随着不同驾驶模拟器和大规模驾驶数据集的出现，基于深度学习的运动规划方式成为了自动驾驶的关键一环。区别于以往常用的模仿或强化学习算法，赵行团队瞄准了离线强化学习（Offline Reinforcement Learning, Offline RL）能够超越专家性能、无需危险环境交互的特性，提出了HsO-VP框架，实现了纯粹基于离线数据的长程运动规划。框架以驾驶技能为根基，将规划分为提取有效驾驶技能和基于技能的策略学习两阶段，通过更高层次的规划和反馈来稳定长程驾驶过程。为解决常见技能提取时的后验坍塌问题，HsO-VP结合人类驾驶先验，引入了双分支序列编码器，以同时捕捉复杂驾驶技能的离散选项和连续变化，使框架能从离线数据中提取出灵活且可解释的大量驾驶技能。相比于先前方案，HsO-VP在新的测试场景中取得了6.4%的驾驶得分提升。

论文题目：Boosting Offline Reinforcement Learning for Autonomous Driving with Hierarchical Latent Skills, Zenan Li*, Fan Nie*, Qiao Sun, Fang Da, Hang Zhao, ICRA 2024

论文链接：https://arxiv.org/abs/2309.13614

------------------------------------------------------------------------------------------------------------------------------

成果4：视觉为中心的自动驾驶技术（2023年度）

尽管自动驾驶技术在过去几年有着进展，但是高级别自动驾驶技术却一直难以落地。赵行团队指出了现有自动驾驶技术存在的泛化性问题，在于过分依赖激光雷达和高精度地图，并提出了以视觉为中心的自动驾驶框架。

在这个框架下，课题组发表了多篇代表性论文，改变了行业范式，包括首个视觉Transformer的三维物体检测模型DETR3D、跟踪模型MUTR3D、端到端运动预测模型ViP3D；用视觉神经先验网络实现在线的地图感知Neural Map Prior，代替了以往的手工地图标注方案；首个用于通用障碍物感知的三维占据网格数据集Occ3D等。

该系列算法成果在多个国际竞赛上拿到冠军，为行业多数头部企业所使用或借鉴。合作企业理想汽车公司在多次产品发布会上提到我们的科研成果带来的价值。至今，理想汽车公司已经将该系列成果部署于超过60万台电动汽车的辅助驾驶系统中，为国产辅助驾驶方案装机量第一，在国际上仅次于Mobileye和Tesla，实现了巨大的产业价值。

2023赵行成果照片1.jpg

2023赵行成果照片2.jpg

成果研究论文：

[1] Xuan Xiong, Yicheng Liu, Tianyuan Yuan, Yilun Wang, Yue Wang, Hang Zhao, Neural Map Prior for Autonomous Driving, CVPR 2023 查看PDF

[2] Xiaoyu Tian, Tao Jiang, Longfei Yun, Yucheng Mao, Huitong Yang, Yue Wang, Yilun Wang, Hang Zhao. Occ3D: A Large-Scale 3D Occupancy Prediction Benchmark for Autonomous Driving. NeurIPS 2023 Dataset Track. 查看PDF

------------------------------------------------------------------------------------------------------------------------------

成果3：机器人跑酷学习（2023年度）

近两年足式机器人的发展着重在复杂地形的移动能力，但是四足机器人的通过性始终没有超过传统的特种轮式机器人。赵行团队联合斯坦福大学，开发并开源了机器人跑酷学习(Robot Parkour Learning)项目，利用视觉和强化学习实现了四足机器人的高动态移动能力，包括：匍匐前进、跳上高台、跨越沟坎等。在这个项目中，我们从传统轨迹优化算法中寻找灵感,采用软动力学约束的方式成功让机器狗训练出特殊的步态以应对超过自身尺寸的障碍物，并且在微调阶段，让强化学习算法成功应用到了真实的机器狗上。Robot Parkour Learning项目得到的跑酷策略，还可以快速迁移到不同形态的机器狗上。Robot Parkour Learning的发表标志着四足机器人找到了它超过传统移动机器人的应用场景和机器学习算法实现。目前，Robot Parkour Learning项目已经开源了训练代码和强化学习模型，并成功在CoRL 2023会场实地展示和在同行的四足机器人上得到成功应用。Robot Parkour Learning项目在今年的机器人学习会议CoRL 2023上，入围了最佳系统论文奖（Best System Paper Award Finalist, Top3）。

研究领域：四足机器人的高动态移动

主要完成人：庄子文

项目网站：https://robot-parkour.github.io/

研究论文：Zhuang, Ziwen, Zipeng Fu, Jianren Wang, Christopher Atkeson, Sören Schwertfeger, Chelsea Finn, and Hang Zhao. ‘Robot Parkour Learning’. In Conference on Robot Learning (CoRL), 2023. 查看PDF

------------------------------------------------------------------------------------------------------------------------------

成果2：自动驾驶行为仿真（2022年度）

主流的自动驾驶方案依赖于大量的道路测试来衡量自动驾驶的水平，而把测试放入计算机仿真环境是未来规模化自动驾驶的重要路线。此外，仿真器还能被用于算法调试和训练数据生成。自动驾驶行为仿真器的构建面临了许多挑战，需要进行多智能体的意图和轨迹建模，同时需要考虑自车对环境和人的响应。赵行团队开发并且开源了首个基于机器学习的闭环自动驾驶行为仿真器InterSim。InterSim基于大规模真实数据集（Waymo Open Dataset）的车辆行为进行模型训练；在应用时，当轨迹规划器使用不同的策略时，仿真器能给出不同的、且逼真的行为反应。InterSim的发布是自动驾驶领域的重要里程碑，为自动驾驶规划算法提供了评测平台和训练数据。目前InterSim已经吸引了全世界几十个团队使用。

研究领域：自动驾驶

主要完成人：孙桥、赵行

项目网站：https://tsinghua-mars-lab.github.io/InterSim/

研究论文：Qiao Sun, Xin Huang, Brian C Williams, Hang Zhao, InterSim: Interactive Traffic Simulation via Explicit Relation Modeling, IROS 2022 查找PDF

------------------------------------------------------------------------------------------------------------------------------

成果1：从射频信号中恢复高质量（2022年度）

麦克风是人机交互和窃听领域中常见的设备，但在有干扰噪音和隔音材料的场景下，其性能会大幅下降。射频信号不受噪音和光照的影响并且可以穿过许多隔音以及不透明的障碍物。基于射频信号的这种性能，赵行团队提出了Radio2Speech，首个使用毫米波雷达信号来恢复高质量语音的系统。使用射频信号来恢复语音信号的原理是：声音产生于声源的震动，毫米波雷达向声源发射信号，通过对反射的雷达信号进行处理可以得到相应的震动信号，从而恢复原始的音频信号。Radio2Speech在安静环境下可以恢复与麦克风质量相当的语音，而在嘈杂环境和有隔音玻璃的环境下表现远优于传统的麦克风。

图片3.jpg

研究领域：多传感器学习

主要完成人：赵闰宁、于江涛、赵行

项目网站：https://zhaorunning.github.io/Radio2Speech/

研究论文：Running Zhao, Jiangtao Yu, Tingle Li, Hang Zhao*, Edith C.H. Ngai*, Radio2Speech: High Quality Speech Recovery from Radio Frequency Signals, Interspeech 2022 查看PDF

团队成员

任建玮
硕士后

论文发表

32. Uncertainty-Aware Decision Transformer for Stochastic Driving Environments, Zenan Li, Fan Nie, Qiao Sun, Fang Da, and Hang Zhao†, https://arxiv.org/abs/2309.16397, CoRL 2024.

31. Humanoid Parkour Learning, Ziwen Zhuang, Shenzhe Yao, Hang Zhao†, https://openreview.net/forum?id=fs7ia3FqUM, CoRL 2024.

30. PreSight: Enhancing Autonomous Vehicle Perception with City-Scale NeRF Priors, Tianyuan Yuan, Yucheng Mao, Jiawei Yang, Yicheng Liu, Yue Wang, Hang Zhao†, https://arxiv.org/abs/2403.09079, ECCV 2024.

29. CVT-Occ: CVT-Occ: Cost Volume Temporal Fusion for 3D Occupancy Prediction, Zhangchen Ye*, Tao Jiang*, Chenfeng Xu, Yiming Li, Hang Zhao†, https://github.com/Tsinghua-MARS-Lab/CVT-Occ, ECCV 2024.

28. Zenan Li*, Fan Nie*, Qiao Sun, Fang Da, Hang Zhao, Boosting Offline Reinforcement Learning for Autonomous Driving with Hierarchical Latent Skills, ICRA 2024

27. Simian Luo, Chuanhao Yan, Chenxu Hu, Hang Zhao, Diff-Foley: Synchronized Video-to-Audio Synthesis with Latent Diffusion Models, Conference on Neural Information Processing Systems (NeurIPS), 2023 查看PDF

26. Ziwen Zhuang, Zipeng Fu, Jianren Wang, Christopher G Atkeson, Sören Schwertfeger, Chelsea Finn, Hang Zhao, Robot Parkour Learning, International Conference on Robots Learning (CORL), 2023 查看PDF

25. Liangtao Zheng, Yicheng Liu, Yue Wang, Hang Zhao, Cross-dataset Sensor Alignment: Making Visual 3D Object Detector Generalize, International Conference on Robots Learning (CORL), 2023 查看PDF

24. Tong Zhang, Yingdong Hu, Hanchen Cui, Hang Zhao, Yang Gao, A Universal Semantic-Geometric Representation for Robotic Manipulation, International Conference on Robots Learning (CORL), 2023 查看PDF

23. Qiao Sun, Xin Huang, Brian C. Williams, Hang Zhao, P4P: Conflict-Aware Motion Prediction for Planning in Autonomous Driving, International Conference on Intelligent Robots and Systems (IROS), 2023 查看PDF

22. Running Zhao, Jiangtao Yu, Hang Zhao, Edith C.H. Ngai, Radio2Text: Streaming Speech Recognition Using mmWave Radio Signals, Ubicomp/ISWC, 2023 查看PDF

21. Xiaoyu Tian*, Tao Jiang*, Longfei Yun, Yucheng Mao, Huitong Yang, Yue Wang, Yilun Wang, Hang Zhao, Occ3D: A Large-Scale 3D Occupancy Prediction Benchmark for Autonomous Driving, Conference on Neural Information Processing Systems (NeurIPS), 2023 查看PDF

20. Yicheng Liu, Tianyuan Yuan, Yue Wang, Yilun Wang, Hang Zhao, VectorMapNet: End-to-end Vectorized HD Map Learning, International Conference on Machine Learning (ICML), 2023查看PDF

19. Xuan Xiong, Yicheng Liu, Tianyuan Yuan, Yilun Wang, Yue Wang, Hang Zhao, Neural Map Prior for Autonomous Driving, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2023查看PDF

18. Xuanyao Chen, Zhijian Liu, Haotian Tang, Li Yi, Hang Zhao, Song Han, SparseViT: Revisiting Activation Sparsity for Efficient High-Resolution Vision Transformer, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2023查看PDF

17. Junru Gu, Chenxu Hu, Tianyuan Zhang, Xuanyao Chen, Yilun Wang, Yue Wang, Hang Zhao, ViP3D: End-to-end Visual Trajectory Prediction via 3D Agent Queries, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2023查看PDF

16. Zitian Tang, Wenjie Ye, Wei-Chiu Ma, Hang Zhao, What Happened 3 Seconds Ago? Inferring the Past with Thermal Imaging, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2023 查看PDF

15. Renhao Wang, Jiayuan Mao, Joy Hsu, Hang Zhao, Jiajun Wu, Yang Gao, Programmatically Grounded, Compositionally Generalizable Robotic Manipulation, International Conference on Learning Representation(ICLR), 2023 查看PDF

14. Zihui Xue, Zhengqi Gao, Sucheng Ren, Hang Zhao, The Modality Focusing Hypothesis: Towards Understanding Crossmodal Knowledge Distillation, International Conference on Learning Representation(ICLR), 2023 查看PDF

13. Qiao Sun, Xin Huang, Brian C Williams, Hang Zhao，InterSim: Interactive Traffic Simulation via Explicit Relation Modeling, IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 2022
查看PDF

12. Renhao Wang, Hang Zhao, Yang Gao, CYBORGS: Contrastively Bootstrapping Object Representations by Grounding in Segmentation, European Conference on Computer Vision (ECCV), 2022 查看PDF

11. Tingle Li, Yichen Liu, Andrew Owens, Hang Zhao, Learning Visual Styles from Audio-Visual Associations, European Conference on Computer Vision (ECCV), 2022 查看PDF

10. Running Zhao, Jiangtao Yu, Tingle Li, Hang Zhao, Edith C.H. Ngai, Radio2Speech: High Quality Speech Recovery from Radio Frequency Signals, Interspeech 2022 查看PDF

9. Zui Chen, Yansen Jing, Shengcheng Yuan, Yifei Xu, Jian Wu, Hang Zhao, Sound2Synth: Interpreting Sound via FM Synthesizer Parameters Estimation, International Joint Conference on Artificial Intelligence（IJCAI), 2022 查看PDF

8. Sucheng Ren, Zhengqi Gao, Tianyu Hua, Zihui Xue, Yonglong Tian, Shengfeng He, Hang Zhao, Co-advise: Cross Inductive Bias Distillation, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2022 查看PDF

7. Jianren Wang, Ziwen Zhuang, Hang Zhao, SEMI: Self-supervised Exploration via Multisensory Incongruity, IEEE International Conference on Robotics and Automation(ICRA), 2022 查看PDF

6. Yu Huang, Chenzhuang Du, Zihui Xue, Xuanyao Chen, Hang Zhao, Longbo Huang, What Makes Multi-Modal Learning Better than Single (Provably), Conference and Workshop on Neural Information Processing Systems(NeuRIPS), 2021 查看PDF

5. Chenxu Hu, Qiao Tian, Tingle Li, Yuping Wang, Yuxuan Wang, Hang Zhao, Neural Dubber: Dubbing for Videos According to Scripts, Conference and Workshop on Neural Information Processing Systems(NeuRIPS), 2021 查看PDF

4. Tingle Li, Yichen Liu, Chenxu Hu, Hang Zhao, CVC: Contrastive Learning for Non-parallel Voice Conversion, Interspeech 2021 查看PDF

3. Zihui Xue, Sucheng Ren, Zhengqi Gao, Hang Zhao, Multimodal Knowledge Expansion, IEEE International Conference on Computer Vision(ICCV), 2021 查看PDF

2. Tianyu Hua, Wenxiao Wang, Zihui Xue, Yue Wang,Sucheng Ren, Hang Zhao, On Feature Decorrelation in Self-Supervised Learning, IEEE International Conference on Computer Vision(ICCV), 2021 查看PDF

1. Jianren Wang, Yujie Lu, Hang Zhao, CLOUD: Contrastive Learning of Unsupervised Dynamics, Conference on Robot Learning(CoRL), 2020 查看PDF