PNAS∣中国农业大学汪海团队实现转录调控序列的人工智能设计

发布日期2024-06-19 浏览次数 信息来源农学院

近日,在“农作物基因资源阐析”国际大科学计划(G2P计划)等项目的支持下,中国农业大学农学院汪海团队联合美国康奈尔大学、丹麦奥胡斯大学、北京大学现代农业研究院、坦桑尼亚农业科学院等单位,在PNAS在线发表了题为“Modeling 0.6 million genes for the rational design of functional cis-regulatory variants and de novo design of cis-regulatory sequences”的研究论文(www.pnas.org/doi/10.1073/pnas.2319811121)。

尽管转录调控已被发现了半个多世纪,人类仍然无法像理解编码区DNA序列的密码子那样,理解转录调控区DNA序列中每个碱基的功能。如何给DNA序列加上“标点符号”以定义motif?Motif的数量、类别、方向、组合、顺序以何种数学函数映射到基因的表达量?这些问题(即转录调控区的语法)至今未能总结为普适而简约的定律。这一基础理论问题的滞后限制了三个应用研究领域的发展:(1)如何打破连锁不平衡的影响,从表达调控区的自然变异(包括常见变异以及关联分析无能为力的低频变异和罕见变异)中高通量发掘功能变异,为杂交育种提供原料?(2)转录调控区的基因编辑往往采用“大规模突变+表型筛选”的方式,具有一定的盲目性且费时费力。如何在转录调控区编辑之前进行理性设计?(3)DNA的变异空间极其庞大,以一段140bp的DNA序列为例,其可能性为4的140次方,远超可观测宇宙中所有原子的数量,因此地球上所有曾经出现过的生命只探索过DNA无限变异空间的很小一部分。如何高效探索DNA序列的无限变异空间,从头(de novo)设计有生物学功能的转录调控区DNA序列,为合成生物学提供无穷无尽的可用元件?

为了回答上述问题,并充分地涵盖植物转录调控区DNA序列的变异空间,该研究利用17个植物物种(拟南芥、毛果杨、大豆、甜菜、蒺藜苜蓿、黄瓜、葡萄、番茄、土豆、谷子、狗尾草、玉米、高粱、二穗短柄草、水稻、小立碗藓、莱茵衣藻)的60万个基因以及6256套转录组数据,开发了一个名为PhytoExpr的深度学习模型。该模型以近端转录调控区DNA序列(5kb启动子和5kb终止子)为输入,预测基因的中位数表达量以及该序列来自哪个物种。为了无偏倚地评估模型的预测准确度,以基因家族为单位划分训练集和测试集,确保模型只在它从未见过的基因家族上进行测试。研究者构建了两种模型结构:CNN+stacking和transformer,并训练随机森林模型对上述两种深度学习模型结构的超参数进行了优化,然后比较它们在四种不同任务(图1c)中的预测精度。结果显示,采用transformer和多任务学习(multi-task learning)架构时,模型在mRNA丰度预测(图1d)和序列物种来源预测(图1e)上都有着更高的准确度。

图1. PhytoExpr模型在测试集上的准确度

为了评估PhytoExpr模型对新物种的泛化能力,研究者使用17个物种中的16个物种训练模型,在模型没有见过的新物种的新基因家族上测试其准确度。结果显示,除莱茵衣藻外,模型可以对从未见过的物种中的从未见过的基因家族作出可靠的预测(图2)。这表明PhytoExpr可以有效地拓展到与模型训练集包含的物种有相近进化关系的新物种中。而莱茵衣藻与其他植物分化了约10亿年,其转录调控的语法可能已经大相径庭,因此没有见过莱茵衣藻的深度学习模型无法对该物种触类旁通。

图2. PhytoExpr的跨物种泛化能力

作者进一步使用PhytoExpr评估了玉米每个基因的转录调控区每个碱基对基因表达的影响(图3a、b),并将碱基重要性得分与碱基保守性、转录因子结合位点进行了比较。结果显示,高保守碱基(图3d)、与转录因子结合的碱基(图3f)都显著富集在PhytoExpr预测的高重要性核苷酸中。这表明虽然PhytoExpr没有使用功能注释数据(例如Conserved Non-coding Sequence、ChIP-Seq等)进行训练,PhytoExpr仍能够识别出调控区序列中的功能元件。

图3. 利用PhytoExpr实现单核苷酸分辨率的定量功能注释

接下来作者使用PhytoExpr解决前文中提到的三个应用问题。首先,利用PhytoExpr模型系统评估了1730万个来自玉米HAPMAP3的SNP对基因表达的影响(图4a),发现模型预测的大效应SNP中显著富集罕见变异(MAF < 0.01),说明这些变异更可能受到负选择(图4b),同时SNP效应评分与SNP到TSS或TTS的距离有很强的相关性(图4c)。因此研究者猜测PhytoExpr预测的大效应SNP可能与自然群体中基因表达水平的变异存在很强的相关性。利用以前报道的基于282个玉米自交系的7个不同组织转录组eQTL数据,依据cis-eQTL曼哈顿图中的关联强度对SNP进行排序(图4d),发现cis-eQTL中排序靠前的SNP在模型预测的大效应SNP中显著富集(图4e),证明PhytoExpr在转录调控区功能变异发掘中的有效性。

 

图4. 利用PhytoExpr定量分析自然变异对基因表达的影响

第二,作者开发了两种算法利用PhytoExpr改进自然启动子。第一种策略称为基于重要性分数的半暴力算法(图5a),利用该方法对四个玉米调控区序列进行设计,并得到了预期的表达量(图5b、c)。第二种策略称为虚拟进化,即在遗传算法中使用PhytoExpr作为选择算子(图5d)。以植物启动子作为初始序列,通过对特定区域的多轮虚拟进化(图5g, 5h),该策略成功提高了目标启动子的转录强度(图5i)。

图5. 转录调控区DNA序列的理性设计

第三,作者利用虚拟进化技术实现了转录调控区DNA序列的从头设计。随机序列在计算机中经过多代虚拟进化,产生了适用于拟南芥的增强子(图5e)和适用于玉米的增强子(图6a),这些增强子虽然和自然序列没有相似性,但是可以分别在拟南芥(图5f)和玉米(图6e)中启动报告基因的表达。因此,将PhytoExpr模型嵌入遗传算法,可以实现DNA序列在计算机中的进化,高效地探索DNA序列的无限变异空间,为植物合成生物学提供无限的元件。

图6. 通过虚拟进化产生玉米增强子

中国农业大学博士研究生李天祎、许辉和博士后滕守振为共同第一作者,汪海教授为通讯作者。该研究得到了“农作物基因资源阐析”国际大科学计划(G2P计划)、国家自然科学基金、中央高校基本科研业务费、中国农业大学2115人才培育工程的经费支持。美国康奈尔大学Edward Buckler教授、丹麦奥胡斯大学Guillaume Ramstein助理教授、北京大学现代农业研究院宋宝兴研究员、坦桑尼亚农业科学院Revocatus Bahitwa农业研究专员对该研究工作提供了宝贵建议。