近日,上海科技大学免疫化学研究所刘佳课题组与上海人工智能实验室谈攀、上海交通大学自然科学研究院/物理与天文学院/张江高等研究院洪亮以及中国科学院杭州医学院宋杰团队合作,开发了一种全新的、以物种温度为标签的语言模型PRIME用于蛋白质稳定性和活性的改造,并在CRISPR-LbCas12a等五种蛋白的定向进化中取得了显著效果。相关研究以“A General Temperature-Guided Language Model to Design Proteins of Enhanced Stability and Activity”为题,于Science Advances在线发表。
蛋白质工程在制药及工业领域的应用中长期面临两大难题:如何精准识别有益的单点突变,以及如何有效组合多个单点突变以构建深度突变体。传统优化蛋白质性能的方法依赖多轮实验筛选和选择,过程耗时且资源密集。而随着计算技术的进步,大规模蛋白质语言模型(PLMs)展现了出色的潜力。然而,大多数 PLMs 在蛋白质热稳定性预测方面的表现仍有明显不足,而热稳定性是蛋白质工程的核心问题。此外,尽管监督学习方法预测精度较高,却依赖海量实验数据,这对于资源受限的目标蛋白质来说并不现实。
该研究中,洪亮/谈攀团队基于一个包含9600万个序列与宿主细菌菌株最优生长温度的综合数据集,开发了PRIME模型(Protein language model for Intelligent Masked pretraining and Environment (temperature) prediction)。PRIME通过深度学习与多任务学习结合,根据温度特性对蛋白质性能进行高效预测;与现有方法相比,PRIME在蛋白质适应性和热稳定性预测上的表现均为最优。通过与刘佳课题组和宋杰课题组合作,研究团队使用PRIME对5种目标蛋白进行了湿实验验证,包括LbCas12a、T7 RNA聚合酶、肌酸酶、人工核酸聚合酶及一种特异性纳米抗体的重链可变区。在30至45个单点突变的实验中,超过30%的AI推荐单点位突变体在关键性能上优于野生型蛋白质,个别蛋白阳性率甚至超过50%。这些性能包括热稳定性、酶促活性、抗原-抗体结合亲和力、非天然核酸聚合能力以及极端碱性条件下的耐受性等,进一步证实了PRIME模型在蛋白质设计和优化中的广泛应用潜力。
上海交通大学物理天文学院博士生姜帆、上海人工智能实验室实习生李明辰、上海科技大学免疫化学研究所博士研究生董家君、上海交通大学余元玺和吴邦昊以及中国科学技术大学孙鑫宇为共同第一作者。上海人工智能实验室青年研究员谈攀、上海交通大学自然科学研究院/物理与天文学院/张江高等研究院洪亮教授、上海科技大学免疫化学研究所刘佳研究员和中国科学院杭州医学院宋杰教授为通讯作者。该项目得到了国家自然科学基金、国家重点研发计划、上海市教委创新项目、上海交通大学科技创新项目、重庆市科技创新重点研发计划、上海市科委计算生物学项目,上海交通大学学生创新中心以及上海人工智能实验室的支持。
图1. PRIME 模型对5种目标蛋白单点突变体预测的成功率汇总
文章链接: