Nature Methods | 基因组注释的新范式:AI以“图像分割”思维实现单碱基精度解码

引言

我们正处在一个前所未有的生物学时代。每天,巨量的基因组序列数据如潮水般涌现,从我们人类到最微小的古菌,生命的蓝图以前所未有的清晰度展目前我们面前。不过,拥有这本厚重的“天书”,DNA序列,与真正读懂它之间,还隔着一道巨大的鸿沟。我们知道构成这本书的“字母”只有A、T、C、G四种,但这些字母如何组成有意义的“单词”(如外显子)、“句子”(如基因)和“语法规则”(如启动子、增强子等调控元件)?这项工作,我们称之为基因组注释 (genome annotation)。

传统的注释方法,就像是雇佣了一群各有所长的语言学家,一位专门识别名词,一位专门识别动词,另一位则只关注标点符号。这些工具各司其职,在特定任务上表现出色,但往往缺乏全局视野,难以整合,面对基因组的复杂性,列如一个区域既可以是外显子又可以是增强子,便显得力不从心。这导致我们的基因组图谱上,仍有大片区域的功能被标记为“未知”,如同古地图上的“蛮荒之地”。

10月29日,《Nature Methods》的研究报道“Annotating the genome at single-nucleotide resolution with DNA foundation models”,为我们带来了一把开启这本天书的革命性钥匙。研究人员开发出一个名为 SegmentNT 的AI模型,它不像过去的专家系统,而是像一位全能的语言大师,能够同时、精准地在单个核苷酸 (single-nucleotide) 的水平上,识别并“分割”出14种不同的基因和调控元件。这不仅是一次技术的飞跃,更是一场解读生命密码的认知革命。

Nature Methods | 基因组注释的新范式:AI以“图像分割”思维实现单碱基精度解码

换个“镜头”看DNA:当基因组遇到图像分割

想象一下,你正在处理一张高清的卫星图像,你的任务是标记出其中所有的道路、建筑、河流和森林。你会怎么做?一个巧妙的方法是“图像分割” (image segmentation),即为图像中的每一个像素分配一个类别标签。目前,如果我们把一条长长的DNA序列想象成一幅一维的“图像”,那么每一个碱基就是一个“像素”。基因组注释的任务,不就等同于为每个“像素”(碱基)打上功能的标签吗?

这正是这项研究的核心洞见。研究人员巧妙地将基因组注释问题重新定义为一个“多标签语义分割” (multilabel semantic segmentation)任务。这里的“多标签”至关重大,由于它承认了基因组的复杂性:同一个碱基可能同时扮演多种角色,例如,它既是基因的一部分,也可能是一个调控元件的结合位点。

为了实现这个宏大的目标,研究人员构建了SegmentNT模型。这个模型拥有一个强劲的“大脑”和一个灵巧的“画笔”。

它的“大脑”是一个预训练好的DNA基础模型,核苷酸转换器 (Nucleotide Transformer, NT)。你可以将NT理解为DNA领域的GPT模型。它已经在海量的、没有任何功能标注的基因组数据中进行了“自我学习”,掌握了DNA语言深层的语法和模式。它并非死记硬背,而是真正“理解”了不同DNA序列片段之间内在的联系和规律。

而它的“画笔”,则是一个名为U-Net的分割架构。U-Net最初在医学图像分割领域大放异彩,它擅长在不同尺度上捕捉特征,并能极其精准地定位目标的边界。在这里,研究人员将其改造为一维结构,接收来自NT“大脑”对DNA序列的深度理解,然后逐个碱基地进行“着色”,精准地描绘出14种不同功能元件(包括蛋白编码基因、长非编码RNA、外显子、内含子、剪接位点、启动子、增强子等)的边界。

这种“大脑”+“画笔”的组合,将基因组注释的精度,史无前例地提升到了单个碱基的层面。

AI的“通识教育”:为何预训练模型是关键胜负手?

在AI领域,从零开始训练一个模型,就像是让一个婴儿直接去解微积分,效率低下且效果不彰。而使用预训练模型,则像是让一位受过通识教育的大学生,再去专攻特定领域的难题。SegmentNT的卓越性能,很大程度上就归功于其强劲的NT“大脑”已经接受了广泛的“通识教育”。

这并非空谈,研究中的数据给出了有力的证据。研究人员进行了一系列“控制变量”实验(消融研究, ablation study),以检验模型设计的每一个环节是否都不可或缺。

第一,他们尝试拿掉预训练的“大脑”,用一个随机初始化的、未经训练的NT模型替换掉预训练好的NT。结果如何?性能一落千丈。在所有14种功能元件的注释任务上,使用预训练模型的SegmentNT平均马修斯相关系数 (Matthews Correlation Coefficient, MCC),一种在不平衡数据上表现更稳健的评估指标,取值从-1到1,1表明完美预测,达到了0.37,而使用随机初始化“大脑”的模型,MCC仅为0.16。性能几乎腰斩。这表明,NT模型从海量无标签数据中学到的DNA“语感”,对于精准注释至关重大。

接着,他们更进一步,完全抛弃了NT“大脑”,直接将DNA序列(以one-hot编码形式)输入给U-Net“画笔”。结果性能更差,平均MCC掉到了惨不忍睹的0.07。这说明,没有深度理解能力的“画笔”,即使结构再巧妙,也无法完成复杂的注释任务。

最后,他们还将SegmentNT与一些为特定任务设计的、同样超级优秀的深度学习模型(如BPNet和SpliceAI)进行了比较。即使将这些专用模型的规模扩大,它们的综合表现(在当前任务设定下,平均MCC为0.27)依旧不及基于预训练模型的SegmentNT(平均MCC为0.37)。

这一系列的比较清晰地揭示了一个实际:在处理基因组这样复杂的信息系统时,一个经过广泛数据“通识教育”的预训练基础模型,是取得突破性成功的关键。它为后续的精细任务提供了坚实的基础和极高的起点。

庖丁解牛:SegmentNT的“手术刀”有多锋利?

研究人员在一个包含14种人类基因组元件的数据集上对模型进行了严格的测试。结果显示,SegmentNT表现出了令人震惊的准确度。对于结构相对明确的元件,如外显子 (exons)3'非翻译区 (3'UTRs)剪接位点 (splice sites),模型的MCC值都超过了0.5,展现了高度可靠的预测能力。即便是对于那些边界模糊、更难预测的元件,如增强子 (enhancers),也取得了不错的性能(组织特异性增强子的MCC达到0.27)。

更有趣的是,研究人员发现,提供给模型的上下文长度会显著影响其性能。当他们将模型的输入序列长度从3kb(千碱基)增加到10kb时,模型的平均MCC从0.37提升到了0.42。尤其是在蛋白编码基因 (protein-coding genes)3'UTRs外显子内含子 (introns)这些依赖长距离信息的元件上,性能提升尤为明显。这就像阅读文章,读一个段落(10kb)显然比只读一句话(3kb)更能理解文章的全貌。

为了更直观地展示模型的能力,研究中给出了一个精彩的案例。在一个10kb的基因组区域,同时存在两个方向相反的基因:NOP56和IDH3B。SegmentNT不仅准确地将这两个基因都识别为蛋白编码基因,还准确地勾勒出了它们各自的5'UTR、3'UTR、外显子-内含子结构以及正确的剪接位点。甚至,它还成功捕捉到了位于NOP56基因上游的启动子区域,以及散布在该区域的多个增强子信号。这一切都在一次预测中完成,展现了其强劲的并行处理和整合分析能力。

超越“近视”的局限:让AI拥有基因组的“广角视野”

基因组中的调控,常常是“遥控”的。一个增强子可能在几十万个碱基之外调控一个基因的表达。因此,一个理想的注释工具必须拥有“广角视野”,能够处理超级长的DNA序列。不过,大多数AI模型都存在上下文长度的限制。

SegmentNT的“大脑”NT模型在预训练时,最长也只“读”过12kb的序列。直接让它处理更长的序列,效果会急剧下降。

为了突破这一“近视”局限,研究团队采用了一种巧妙的上下文长度外推 (context-length extension)技术。通过在数学上对模型的位置编码进行“重新缩放”,使得在较短序列上训练好的模型,能够“零样本” (zero-shot)地适应并处理远超其训练长度的序列。实验数据表明,这一技术效果显著。一个在10kb序列上训练的模型,在预测100kb长的序列时,如果不使用这项技术,其平均MCC仅为0.07,几乎等同于随机猜测;而使用了该技术后,MCC能够回升到0.26,性能得到了极大的保留。

基于此,研究人员训练出了一个能在30kb序列上工作的SegmentNT-30kb模型,其平均MCC达到了0.45,是所有版本中性能最好的。通过上下文外推,这个模型在处理50kb的序列时表现最佳(平均MCC高达0.47),一次性就能产出700,000个(14个元件 × 50,000个碱基)预测结果,效率惊人。

研究人员并未止步于此。他们还探索了将SegmentNT的框架与其他的长序列基础模型,如EnformerBorzoi,进行结合的可能性。这两个模型本身就能处理近200kb甚至超过500kb的序列。整合后的新模型,SegmentEnformer和SegmentBorzoi,虽然在基因元件等高精度任务上不及SegmentNT(由于它们内在的预测分辨率较低),但在识别启动子增强子CTCF结合位点等调控元件时,表现出了更强的性能。这充分展示了SegmentNT框架的灵活性和可扩展性:通过更换不同的“大脑”,模型就能适应不同的任务需求,有的擅长精雕细琢,有的则长于高瞻远瞩。

跨越物种的藩篱:AI能读懂“外星”基因组吗?

生命之树枝繁叶茂,不同物种的基因组既有共性,也充满了个性。一个在人类基因组上训练出的顶尖模型,能否读懂小鼠、果蝇甚至玉米的基因组?这是衡量一个模型通用性的“终极考验”。

研究人员第一将仅在人类数据上训练的SegmentNT-30kb模型,直接应用于其他15种动物和5种植物的基因组。结果超级符合生物学直觉:模型的表现与物种间的进化距离呈显著的负相关。在与人类亲缘关系最近的大猩猩和猕猴上,模型表现优异;而随着进化距离的拉远,如在斑马鱼和蠕虫上,性能逐渐下降;在亲缘关系最远的植物上,性能则进一步降低。这表明,虽然生命的基本语法有共通之处,但不同物种的“方言”差异依然存在。

为了打造一个更具普适性的“翻译器”,研究团队进一步在人类和其他五种代表性动物(小鼠、鸡、果蝇、斑马鱼、蠕虫)的数据上,对模型进行了联合微调,得到了一个多物种模型 (multispecies model)

这个多物种模型的表现令人惊喜。在对远缘动物物种的预测中,它的平均性能(MCC 0.57)显著优于纯人类模型(MCC 0.49)。最令人振奋的是,在植物基因组上的表现。尽管这个多物种模型在训练中从未见过任何植物的DNA,它在5种植物上的平均MCC达到了0.45,远高于人类模型的0.34。这意味着,通过学习多种动物基因组的共性与差异,模型掌握了更为底层的、可跨界迁移的生命语法规则。一个只在动物界“留学”过的AI,居然能很好地解读植物界的“文献”!

研究人员还将其与经典的基因注释工具AUGUSTUS进行了正面比较。无论是在哺乳动物、蠕虫还是植物上,多物种的SegmentNT在绝大多数物种的基因注释任务中都展现了更优的性能。这标志着,一个全新的、更强劲、更通用的基因组注释时代正在到来。

解码之后,所见为何?新一代基因“阅读器”的无限可能

SegmentNT的诞生,不仅仅是发表了一篇高水平的论文,或是发布了一个好用的工具。它的意义远超于此,为生命科学的未来研究开启了广阔的想象空间。

第一,它为遗传变异的解读提供了前所未有的准确“地图”。人类绝大多数的疾病相关突变都发生在非编码区,这些区域正是启动子、增强子等调控元件的所在地。过去,我们很难判断这些突变的功能。目前,有了SegmentNT这样能够在单碱基水平上精准定位功能元件的工具,我们就能更准确地评估一个突变是否恰好破坏了某个关键的调控“开关”,从而为疾病的诊断和治疗提供更精准的指导。

其次,它极大地推动了比较基因组学 (comparative genomics)进化生物学的发展。其强劲的跨物种泛化能力,使得我们可以快速、系统地注释那些研究较少、甚至全新的物种基因组。通过比较不同物种间功能元件的异同,我们可以更深入地探究物种演化的奥秘,理解生命多样性背后的遗传密码。

再者,SegmentNT本身,尤其是其经过精调的NT“大脑”,已经成为了一个宝贵的资源。这个“大脑”不仅学会了识别14种功能元件,更重大的是,它在学习过程中,已经将复杂的基因组功能信息,编码成了机器可以理解的、丰富的数学表明。这些表明可以被迁移到其他更复杂的下游任务中,列如预测基因表达水平、识别染色质三维结构等等,有望催生出更多创新的应用。

从破译第一个基因,到完成人类基因组计划,再到今天我们拥有SegmentNT,我们对生命密码的解读,正在从“盲人摸象”式的碎片化认知,迈向一个全局、精准、系统化的新纪元。SegmentNT不是终点,而是一个全新的起点。

参考文献

de Almeida BP, Dalla-Torre H, Richard G, Blum C, Hexemer L, Gélard M, Mendoza-Revilla J, Tang Z, Marin FI, Emms DM, Pandey P, Laurent S, Lopez M, Laterre A, Lang M, Şahin U, Beguir K, Pierrot T. Annotating the genome at single-nucleotide resolution with DNA foundation models. Nat Methods. 2025 Oct 29. doi: 10.1038/s41592-025-02881-2. Epub ahead of print. PMID: 41162646.

声明:本文仅用于分享,不代表平台立场,如涉及版权等问题,请尽快联系我们,我们第一时间更正,谢谢!

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...