x 广告
当前位置: 关注 > > 正文

卓越项目奖+最佳论文奖!这位“青椒”在大数据计算研究领域“勇攀高峰”

2023-02-13 12:06:48 来源:中国人民大学

近期


(资料图片仅供参考)

2021年度CCF-腾讯犀牛鸟基金

发布结题评优结果

中国人民大学信息学院

张峰副教授

获得本年度的唯一最高奖

卓越项目奖

此外

张峰副教授

为第一作者的A类论文

也荣获TPDS

2021年度最佳论文奖

在数据库

和系统结构交叉领域

他孜孜不倦,逐步深耕

让我们一起走近

这位人大青年教师的

“科研之路”

一、产学研结合

聚焦真实、有用、有挑战的

数据库系统研究

近年来,探索大数据、人工智能的热潮正兴,例如近期备受关注的AI作画、ChatGPT等技术。随着大数据技术的发展,高校的相关研究也亟待把握时代赋予的机遇,开展致力于提升人类生活品质的创新研究。作为CCF-腾讯犀牛鸟基金“卓越项目奖”获奖学者,中国人民大学张峰副教授和腾讯数据库团队合作研发了“新型数据库存储引擎”,可支持在压缩数据上的直接计算,通过将数据操作下推到存储层,完成直接在存储系统中执行数据查询和更新,从而大幅提高了数据库系统的效率。

张峰及其团队早在2017年就意识到存储空间和处理时间会是大数据存储与分析技术发展的瓶颈,并提出了压缩数据直接计算这一基本研究想法,即在压缩的状态下直接对数据进行处理,相关的基本想法、挑战、解决思路等发表在了2018年的国际数据库大会VLDB上。之后,他的研究工作一直围绕压缩数据直接计算展开,并在压缩直接计算算法、性能提升技术,以及系统实现等不同维度均有突破。2021年参与CCF-腾讯犀牛鸟基金项目申请,正是推动成果落地的好机会,张峰便和腾讯数据库团队一起探索了压缩数据直接计算的新型数据库存储引擎。

张峰认为,校企间的产学研合作是一种非常好的协同创新模式。一方面,人大数据库团队有非常深厚的数据库技术积淀,这是项目合作的技术基础,也是高校的优势所在;另一方面,企业会有实际应用需求,会直接涉及到实际开发系统,而这些不断产生的新需求则是技术成果落地的土壤。只有聚焦真实、有用、有挑战的数据库系统研究,才能解决真实的系统研究问题。

张峰表示:“本次获奖是对人大数据库团队的肯定。通过本次合作,我知悉了集科研合作、成果转化、人才培养为一体的产学协同模式,也更深入了解了企业需求,为后续科研思路打开了产业视角,这对我而言意义非凡。”

二、关注大数据计算领域新问题

助力云数据库技术发展

合作期间,张峰在SIGMOD、VLDB等CCF A类会议及期刊上发表论文8篇,申请专利3项。其研究成果主要集中在将压缩数据直接计算技术到各实际应用场景的应用。张峰讲述道:“我们发现图关系在实际应用中往往比传统关系型数据库能更好地对社交网络数据进行表达,但是图关系所占空间开销巨大,且存在大量冗余。因此,我们将所研发的压缩数据直接处理技术运用在了图数据中。例如,如果我和您有共同的一组好友,那就可以用一条规则对共同好友进行表达,而不需要将共同好友在我们的数据库中存储多次;同时,相应的分析任务也只需要对一条规则进行处理,然后复用中间结果就能起到节省时间的效果。除了图数据,我们也将所研究的技术扩展到流数据和GPU等场景。”

IoT技术和云计算技术的发展催生了边端云计算架构的快速发展,各类异构嵌入式设备接入到互联网。但这些异构设备的容量受限性能较弱,这些设备上的机器学习任务需要传递到第三方云服务平台、由算力更强的GPU服务器完成。而这会带来数据安全的新问题。张峰作为第一作者发表在TPDS上的论文“An Efficient Parallel Secure Machine Learning Framework on GPUs”提出了基于安全多方计算的GPU安全机器学习系统,这是国际上较早能够利用GPU的安全机器学习框架工作的研究,荣获TPDS 2021年度最佳论文。

相比于不使用GPU的安全机器学习方法,张峰的工作能够在确保数据安全的前提下带来30倍以上的性能提升。他在研究过程中遇到了如何进行复杂计算模式并行、节点内CPU- GPU间数据传输开销、节点间依赖等技术问题,也对应提出了基于分析的自适应GPU优化、节点内计算和访存重叠、节点间数据传输压缩等一系列解决方案。该研究可以让这些新硬件处理更大规模的问题,这就能够缓解新硬件自身的限制,在数据传输、数据存储方面发挥较大作用。

IEEE TPDS是中国计算机学会(CCF)推荐的A类期刊,在并行与分布式计算领域享有很高的学术声誉。经统计,2021年TPDS总发文量为297篇,根据惯例会评选出一篇年度最佳论文和一篇最佳论文提名。

三、勇攀科研高峰

人大“数据人”一脉相承

在谈及自身的学习、成长经历时,张峰一直在强调身为人大“数据人”的使命与担当。张峰以前的研究方向是计算机系统结构,来到人大后开始致力于系统结构与数据库技术交叉问题的研究,选择深耕基于语法规则解析的压缩数据直接计算数据库技术。在找到了这样的一个结合点之后,一直在探寻如何对此研究进行系统化的深入,例如,如何同GPU等新硬件设备进行结合、如何并行、如何进行索引等。

在这条“科研之路”上,无数的人大“数据人”已经开辟了前路。张峰说:“无论是我在清华大学读博士阶段的导师陈文光教授,还是我博后阶段的导师杜小勇教授,都非常强调做实际有用的科研。理论联系实际,做有用的研究,这也是人民大学数据库团队的科研准则。”在20世纪80年代,中国没有自主知识产权的数据库产品,国内市场几乎全为国外巨头企业的产品所垄断。人大的数据库团队一方面积极为国家大型计算机系统相关项目进言献策,另一方面更重视对技术难度大、投入多的数据库基础软件的研制,开始了国产数据库的产品化研发,使得数据库的应用从边缘行业一点点深入核心部门。“作为新一代年轻科研人员,我们一方面要继承老一辈科研人员的传统,另一方面也要积极创新,让人大在数据库领域发展得更好”,张峰自豪地说。

▲张峰和同学们在一起

在专注自身研究的同时,张峰也肩负起将人大“数据人”的责任与使命传递给下一代的任务。他从2019年起担任人大信息学院图灵班的班主任,并注意到同学们在学习生活中存在缺少理论联系实际的动手环节问题。作为老师,他积极鼓励同学们在本科阶段就走进实验室。他说:“我也会带本科生一起参与科学研究,不少同学本科阶段就发表了高水平学术论文。”据悉,许多信息学院本科生通过实验室科研早培在数据科学领域发表顶级学术论文,受到国内外同行的认可,在人大、清华、北大等海内外名校直接攻读博士学位。2019级信息学院图灵班更是有本科生就发表了ASPLOS、VLDB等顶会论文,拿到了UIUC等世界名校的PhD offer。结合人大在数据科学的优势,信息学院有一套完整的“3+X”的新型计算机专业课程体系来培养学生的科研兴趣,《以数据为中心的计算机特色领军人才培养——图灵实验班的教改实践》成果,获评2022年度北京市高等教育教学成果一等奖。

应用导向

解决数据库系统发展现实问题

承前启后

传承人大“数据人”的使命与担当

在大数据计算研究领域

这条“攀峰”之路上

他不断收获

并一直前行

关键词: Large Payload 1048576 Entity

x 广告
x 广告

Copyright   2015-2022 人人直播网版权所有  备案号:粤ICP备18023326号-36   联系邮箱:8557298@qq.com