科学研究

生物院罗宵团队在DNA基础大模型研究领域取得重要进展

发布时间:2026-06-10

近日,生物学院罗宵教授团队在DNA基础大模型研究领域取得重要进展。团队提出DNA基础大模型CrossDNA,围绕DNA正向链与反向互补链之间的信息交互,构建了一种显式、动态的跨链序列建模框架,为探索基因组结构与功能关系提供了新工具。

DNA是生命遗传信息的基本载体,基因组序列中蕴含着调控元件、变异效应和复杂生命过程的重要信息。现有许多DNA语言模型通常将DNA序列视为由A、T、C、G组成的单链文本,或通过数据增强、模型等变约束等方式获得一定的双链信息。然而,真实DNA并不是孤立的单链序列,而是双链结构。如何在模型表示学习过程中显式刻画两条链之间的交互关系、功能协同和动态信息传递,是提升DNA基础模型可靠性与解释能力的重要问题。

CrossDNA模型采用双分支结构分别处理正向链和反向互补链,并通过交替视角训练机制,学习不同链方向下的序列表示;同时,模型利用轻量级跨链通信模块在碱基层面进行信息交换,使两条链的上下文信息能够在模型内部实现动态融合。与单链DNA语言模型相比,CrossDNA将DNA双链结构先验直接引入表示学习过程,使模型更接近DNA分子本身的信息组织方式。

在多类基因组任务中,CrossDNA展现出出色的性能和参数效率。研究显示,该模型不仅增强了对序列方向变化的鲁棒性,还在调控元件识别、增强子预测、长程基因组任务及零样本序列表征等方面取得竞争力结果。进一步分析表明,CrossDNA可用于调控逻辑解释、新调控元件发现及疾病相关非编码变异优先级排序。这表明其价值不仅在于单项性能提升,更在于提供了一种符合DNA双链特性的序列建模路径。未来,CrossDNA有望服务于精准医学、作物基因组分析及AI驱动育种,为新一代基因组人工智能模型奠定技术基础。

团队成果以“Explicit dynamic cross-strand interactions for DNA sequence language modelling”为题,发表于国际期刊《Nature Machine Intelligence》。论文通讯作者为湖南大学罗宵教授和刘元盛副教授,湖南大学为唯一通讯单位。研究得到国家自然科学基金、岳麓山实验室种业专项、湖南省自然科学基金等项目支持。

图1 CrossDNA 架构图。

论文链接:

https://www.nature.com/articles/s42256-026-01249-1

来源:生物学院

通讯员:罗丹

编辑:罗立丹

责任编辑:余楚倩

TOP