免化所白芳课题组发展分子表征新技术助力AI药物研发

发布者:冯明静发布时间:2024-08-30浏览次数:121

近日,上海科技大学免疫化学研究所/生命科学与技术学院双聘助理教授白芳课题组在国际期刊Advanced Science杂志发表了题为“Conformational Space Profiling Enhances Generic Molecular Representation for AI-powered Ligand-based Drug Discovery”的研究论文,提出了一种基于分子间构象空间相似性的预训练分子表征模型GeminiMol,该模型能够系统表征药物小分子的构象空间特征,进而在包括基于配体的虚拟筛选、靶标鉴定、分子属性预测等多种AI药物发现任务上表现出均衡的优良性能。
分子表征模型可将人类可读的分子化学结构转化为计算机可理解的数值向量,通过表征学习,可提取分子的抽象但关键有用的信息,从而用于后续药物筛选、分子属性预测等AI任务。分子表征的质量直接决定了后续药物设计方法的性能,因此是AI药物研发的重要技术环节。在生理条件下,药物分子以一定的三维构象的形式发挥其生物活性(药效),因此,在分子表征技术中准确融入其三维构象信息对于分子表征性能至关重要。此外,相似的分子可能具有相似的生物活性功能,通过利用对比学习发展高性能的分子表征技术,对于利用已知活性分子进行基于配体的药物发现具有重要意义。

基于此,该研究设计了如图1所示的考虑分子三维构象空间的分子对比学习表征预训练模型。在预训练过程中,一对药物小分子首先通过相同的分子编码器进行独立的编码,得到一个2048维的分子表征向量,随后,使用多个不同的预测头将两个分子的表征向量投影到多种分子间相似性指标,包括分子的二维最大公共子结构相似性和分子的三维构象空间相似性(通过具有分子构象信息的药效团形状相似性来计算)。

1通过分子间对比学习框架训练分子构象空间表征模型GeminiMol

随后,研究团队在多种下游任务上对GeminiMol模型进行了基准测试,包括来自高通量筛选实验数据的虚拟筛选基准测试集LIT-PCBA、来自药物-靶标相互作用数据的靶标鉴定基准测试集TIBD、以及多种来源的定量构效关系(QSAR)和药物属性(ADMET)基准数据集。如图2所示,GeminiMol在多种药物发现下游任务上表现出较为均衡的优良性能,进一步证实了它应用于多种药物发现任务的优良潜力。该方法已在课题组多个药物研发应用项目中起到关键的推动作用。

2. GeminiMol在多种药物发现任务中表现出有竞争力的性能。

论文的所有训练数据集、下游任务基准测试集、药物筛选应用所需的化合物数据集均已经开放储存在Zenodo仓库(https://zenodo.org/records/10450788),模型上传至HuggingFacehttps://huggingface.co/AlphaMWang/GeminiMol),GeminiMol模型代码、分子指纹基线方法和使用教程均已开源在GitHub仓库(https://github.com/Wang-Lin-boop/GeminiMol)。

上海科技大学生命学院/免化所2024届博士毕业生王林(现为苏州系统医学研究所博士后)为本文的第一作者,免化所研究员、生命学院助理教授白芳为本文的通讯作者。另外,生命学院与信息学院多名研究生或者本科生也参与了本研究工作。上海科技大学为唯一完成单位。

论文链接:

https://onlinelibrary.wiley.com/doi/10.1002/advs.202403998