综合新闻

曾湘祥教授课题组发布大规模电子密度数据集EDbench

发布时间:2026-01-27

药物研发与材料设计中,精准掌握分子性质至关重要。传统方法依赖分子二维结构或三维原子坐标,但分子化学性质、反应活性及功能由外围电子分布形态(电子密度)决定。但高精度电子密度数据的获取长期依赖耗时的量子化学计算,大规模数据匮乏制约了AI在该领域的发展。

针对这一难题,我校计算机学院曾湘祥教授团队依托“天河”系列超算,累计投入超20万核时,通过高精度计算绘制了包含336万个分子的电子密度图谱,构建了EDBench数据集。该数据集规模远超现有公开数据库,并提供了可直接用于AI训练的电子密度数据,使每个分子都拥有一张可被解读的“电子CT扫描片”。

EDBench数据集的发布填补了电子级分子建模的大规模数据空白,为新药研发和新材料设计提供了加速支持。该数据集具有重要现实意义,为科研界提供了系统性、大规模的分子电子层面基准数据,推动人工智能在药物发现与材料科学中实现从原子级到电子级的范式跨越。基于此,研究人员可在实验前对海量候选分子进行电子层面的高效虚拟筛选与理性设计,有望大幅缩短新药与新材料的研发周期、降低成本,为应对重大疾病和开发先进功能材料开辟新路径。

该研究成果以“EDBench: Large-Scale Electron Density Data for Molecular Modeling”为题,被人工智能领域旗舰学术会议NeurIPS 2025(神经信息处理系统大会)接收。

我校博士研究生向鸿鑫为论文第一作者,曾湘祥教授为通讯作者,该研究工作得到了国家超算长沙中心等支持,目前,该数据集与相关模型已通过项目主页全面开源,旨在推动全球范围内的协同创新。

论文链接:EDBench: Large-Scale Electron Density Data for Molecular Modeling

来源:计算机学院

通讯员:张雅静

编辑:刘嘉欢

责任编辑:周丹

TOP