选择语言
< 返回主菜单
weixintupian_20240110110622.jpg

张焕晨

上海期智研究院PI(2021年7月-至今)
清华大学助理教授

个人简介

上海期智研究院PI,清华大学交叉信息研究院助理教授。

博士毕业于美国卡内基梅隆大学计算机系,曾任Snowflake博士后研究员。本科毕业于美国威斯康星大学麦迪逊分校。主要研究方向是云数据库系统、索引/过滤器数据结构、列存数据格式等。


个人荣誉

2022 ACM SIGMOD中国新星奖

2021年SIGMOD吉姆·格雷博士论文奖(SIGMOD Jim Gray Doctoral Dissertation Award)

2021 世界人工智能大会 WAIC 云帆奖

2021年国家自然科学基金海外优青项目

2020 Communications of the ACM (CACM) Research Highlight

2018 SIGMOD Best Paper Award

研究方向

云数据库系统:运用首创的“成本智能”概念,设计全新的云原生数据库系统架构

索引/过滤器数据结构:设计性能优秀且内存消耗小的索引和过滤器来加速数据库查询

列存数据格式:设计下一代开源列式存储格式 (聚焦机器学习类负载和GPU解码性能)

亮点成果

成果3:迈向成本智能的云数据库

       几十年来,数据库的研究一直专注于优化固定资源下的系统性能。随着越来越多的数据库应用迁移到公有云,我们认为在解决数据库优化问题时,数据库的运行成本应该和性能一起成为“一等公民”。张焕晨团队联合美国最具实力的云数据库服务公司Snowflake,首创了“成本智能”的概念,并为此设计了全新的云原生数据库系统架构。我们重点研究了云原生数据库实现成本智能的两个关键挑战:高效的资源自动部署以及成本导向的数据库自动调优。我们在论文中指出了当今云数据库在解决这两项挑战时仍欠缺的组件。这些新组件中的每一个都代表了一个该领域急需研究的方向。论文已在数据库系统核心会议CIDR发表,并获得广泛关注。依据该论文为蓝图的全新系统正在清华和上海期智研究院紧张开发中,有望成为学术界首个开源的云原生数据仓库。


2023张焕晨成果照片3.png


       研究领域:云数据库系统

       研究论文:Huanchen Zhang, Yihao Liu, and Jiaqi Yan. “Cost-Intelligent Data Analytics in the Cloud”. Proceedings of the 2024 Conference on Innovative Data Systems Research (CIDR), January 2024.

       论文链接:https://www.cidrdb.org/cidr2024/papers/p78-zhang.pdf


------------------------------------------------------------------------------------------------------------------------------


成果2:列式存储格式的深入实证剖析

       列式存储是现代数据分析系统的核心组件之一。许多数据库管理系统都广泛使用 Apache Parquet 和 Apache ORC 等开源存储格式,以促进跨平台数据共享。这些存储格式大多是在2010年代初为 Hadoop 生态系统开发的,然而过去的十几年间,硬件的性能和数据库的负载都发生了显着变化。张焕晨团队联合美国卡内基梅隆大学通过大量实验,深入研究了当今最广泛使用的开源列式存储格式的内部结构,梳理总结了其使用的各项压缩、编码、索引、以及元数据管理技术的优缺点。我们还对越来越重要的机器学习型负载(如高维向量搜索)以及现有格式在GPU上的解码性能做了全面的测试。结果显示现有列存格式在此类负载中性能低效。这项研究为下一代通用列式存储格式的提出与开发做了重要的准备工作。我们的论文在数据库顶会VLDB发表,并一度登上Hacker News Trending Top 3.


2023张焕晨成果照片2.png



       研究领域:列式存储

       研究论文:Xinyu Zeng, Yulong Hui, Jiahong Shen, Andrew Pavlo, Wes McKinney, and Huanchen Zhang.“An Empirical Evaluation of Columnar Storage Formats”. Proceedings of the VLDB Endowment (VLDB 2023), 17.2: 148-161.

       论文链接:https://www.vldb.org/pvldb/vol17/p148-zeng.pdf


------------------------------------------------------------------------------------------------------------------------------


成果1:大数据压缩

       数据压缩在大数据处理中起到节省存储成本和加速查询等至关重要的作用。当今海量数据的产生与对查询极高的响应时间要求,让大数据压缩技术面临着全新的挑战。相对于传统的消除数据重复的思路,张焕晨团队从一个全新的角度建模数据压缩问题,结合机器学习技术深度消除数据中的相似性冗余,使得压缩率突破信息熵下界,同时加速解码过程以提升后续计算的效率。针对现实系统中的混合事物分析场景,提出了系统性压缩的工具链。在列存的基础上,提出解决方案LeCo,用数据挖掘和模式识别技术将单列数据的分布信息凝缩在模型中,并存储错误修正码以实现无损压缩。在多个真实系统测试中,该压缩方案凭借突出的压缩率与轻量级解压操作提升查询速度、缓解内存瓶颈,在Parquet读取和Hash join算子中有着高至12倍和96倍的速度提升。同时,在行式存储场景中,张焕晨团队提出Blitzcrank方法。它对大数据语义进行建模,使用贝叶斯网络描述数据依赖和相似性关系,最高可达到20倍的压缩比。张焕晨团队对于数据压缩的上述尝试解决了现有系统的性能瓶颈,并且让该领域看到从消除数据相似性冗余入手实现压缩仍大有可为,为AI大数据处理提供了更坚实的存储基础。

2023张焕晨成果照片1.png

论文发表

1. Chen, Zheng, Feng Zhang, Jiawei Guan, Jidong Zhai, Xipeng Shen, Huanchen Zhang, Wentong Shu, and Xiaoyong Du,CompressGraph: Efficient Parallel Graph Analytics with Rule-Based Compression,To Appear in Proceedings of the 2023 International Conference on Management of Data (SIGMOD). 2023.



2. Wang, Ke, Guanqun Yang, Yiwei Li, Huanchen Zhang, and Mingyu Gao,When Tree Meets Hash: Reducing Random Reads for Index Structures on Persistent Memories,To Appear in Proceedings of the 2023 International Conference on Management of Data (SIGMOD). 2023.


3. Cha, Hokeun, Xiangpeng Hao, Tianzheng Wang, Huanchen Zhang, Aditya Akella, and Xiangyao Yu,Blink-hash: An Adaptive Hybrid Index for In Memory Time Series Databases,To Appear in Proceedings of the VLDBEndowment 16. 2023


4. Anneser, Christoph, Andreas Kipf, Huanchen Zhang, Thomas Neumann, and Alfons Kemper,Adaptive Hybrid Indexes,2022 In Proceedings of the 2022 International Conference on Management of Data (SIGMOD)


5. Knorr, Eric R., Baptiste Lemaire, Andrew Lim, Siqiang Luo, Huanchen Zhang, Stratos Idreos, and Michael Mitzenmacher,Proteus: A Self-Designing Range Filter,2022 In Proceedings of the 2022 International Conference on Management of Data (SIGMOD)