即可将网页分享至朋友圈
近日,生命科学与技术学院生物信息学研究团队在生物学领域顶级期刊Genome Biology(中科院一区Top)发表了题为“iPro-MP: a BERT-based model for the prediction of multiple prokaryotic promoters”的研究成果。生命学院2021级博士研究生苏伟为第一作者,林昊教授、吕昊副教授为共同通讯作者。该研究受到国家自然科学基金和中国博士后科学基金等项目的支持。电子科技大学为第一署名单位。

启动子(promoter)是决定转录起始的关键顺式调控元件,通常位于转录起始位点(TSS)上游,可通过特定的保守基序(如-10区)招募并定位RNA聚合酶及相关因子,从而影响基因表达的时空与强度。对启动子的准确识别不仅是解析原核转录调控网络的前提,也是构建设计可编程表达系统与改造代谢通路的基础。实验手段(如dRNA-seq、Cappable-seq、5’RACE)可提供高分辨率标注,但成本高、流程繁琐、在非模式生物上难以规模化;同时,新测序基因组数量快速增长,迫切需要借助计算方法进行高通量、低成本、跨物种的一致性判定,以支撑功能注释、调控网络重建与下游合成设计。
鉴于此,该研究基于大语言模型对23种原核生物启动子实现了高精度预测。通过五折交叉验证与独立测试,结果表明iPro-MP具有良好的稳健性与泛化能力;同时模型在−10/−35(细菌)与近−26 位点(古菌)呈现清晰的注意力聚焦,具备一定可解释性与计算效率,为解析原核生物基因表达调控机制提供了高精度、可扩展的计算工具,可用于非模式生物启动子识别、跨物种比较分析与合成生物学元件挖掘,并为后续的启动子设计与功能预测奠定方法学基础。

林昊,生命学院教授、博导,长期从事生物医学信息学领域的研究。以通讯作者在iMeta、npj Digital Medicine、Advanced Science等高水平期刊上发表论文。连续多年入选“爱思唯尔中国高被引学者”和斯坦福大学发布的“全球前2%顶尖科学家榜单”,曾入选“科睿唯安高被引科学家”。获华夏医学科技奖二等奖。
吕昊,生命学院副教授。持续研究复杂疾病多维表征问题,Google学术引用2,600余次,H-index为29。先后主持国家自然科学基金青年基金项目(C类)等项目。担任国际期刊iMeta、Methods、IJMS、BMC Bioinformatics青年编委/特刊主编。担任中国计算机学会生物信息学专委会委员、中国计算机学会生物信息学"BIO-3NEW"青年学者执委会委员、中国生物信息学会表观遗传信息学专委会委员、四川省生物信息学学会青年委员会委员。
苏伟,生命学院2021级博士研究生。研究方向为人工智能驱动的基因组学分析。近年来以第一作者发表SCI论文5篇,包括Genome Biology、Journal of Molecular Biology,International Journal of Biological Macromolecules等。
论文链接:
https://doi.org/10.1186/s13059-025-03819-9
编辑:刘瑶 / 审核:王晓刚 / 发布:陈伟