图书前言

前    言

新药研发是一个周期长、耗费高的过程,大部分药物成功上市需要10~15年。新药研发中许多化学生物实测技术在所谓的“wet实验室”中开展,而计算方法的开发和应用有助于加速药物发现,因其不在生物体内或体外开展实验,通常被称为“in silico”。计算方法已经广泛应用了几十年,随着人工智能的兴起,特别是机器学习和深度学习技术的成熟,新药研发有了创新,基于人工智能的新药研发不仅有效缩短了药物发现的时间,而且诞生了全新的智能药物。

本书介绍了应用于新药研发领域的先进人工智能技术,涵盖了新药研发的多个阶段,总结了人工智能技术在不同阶段常用的数据集和对应的深度学习技术的发展情况。

本书第1~2章介绍了新药研发的主要过程和用到的主流的人工智能技术的类型。将人工智能技术应用到药物研发是一项多学科交叉的工作,首要挑战是用计算机语言描述和表达具有化学意义的分子结构。第3章介绍了与药物研发相关的化学分子的多种描述符,阐述了这些具有化学意义的分子是如何转换为计算机语言进行存储计算的。在本书的多个章节中,以分子的计算机描述符作为分类标准,介绍了基于多种描述符发展的人工智能技术。第4章描述了在人工智能技术中,关于分子的不同种类的计算机描述符是如何进行无监督预训练学习的。

新药发现中只有符合特定理化性质的化合物分子才能成为候选化合物,而分子结构决定分子性质,本书第5章介绍了分子性质预测模型。根据分子结构进行预测也称为基于配体的预测,最初是使用数学模型预测某些分子性质。近几十年,这一过程转向使用大规模数据源和分子描述符库,利用更现代的机器学习算法自动生成预测模型。

药物发现本身就是一个多目标或多参数的挑战,被批准的药物必须满足在预定剂量下的安全性和有效性的要求,药物设计面临的重大挑战之一是新的分子结构的生成—如何设计分子才能满足所考虑的疾病领域确定的各种重要约束条件。本书第6章介绍了人工智能技术在智能分子生成领域的发展,常用的深度学习模型包括变分自编码器、生成对抗网络和循环神经网络等,模型通过对现有的大量分子数据结构的学习,生成全新的、满足要求的智能分子。

药物在生物体内的目标是与靶标蛋白结合,药物-靶标相互作用在药物发现过程中起着至关重要的作用,主要目标是为特定靶标寻找合适的新配体。本书第7章介绍了人工智能技术在药物-靶标相互作用预测中的应用,包括药物分子与靶标的表征方法以及基于机器学习和深度学习的预测模型。在药物的实际应用过程中,由于服药个体的差异性和疾病类型的复杂性,病人同时或在一定时间内服用两种或两种以上药物,可使药效加强或副作用减轻,也可使药效减弱或出现不应有的毒副作用。本书第8章介绍了基于深度学习的药物-药物相互作用预测,包括基于相似性、图神经网络和知识图谱的方法。知识图谱在其他方面也有较多的应用,药物研发依赖较多的医药和化学知识,为知识图谱在新药研发中的应用提供了基础。本书的第9章详细介绍了基于知识图谱的常用模型和应用。

合成有机化学中重大的挑战之一是新化学分子合成路线的设计和规划,药物化学和药物发现中更是如此。给定一个目标分子,什么样的一系列反应和条件可以被优化,以使材料、产物、成本和时间最合理化,从而在实验室中产生预期目标结果。逆向合成规划从所需的产品开始向前工作,以决定哪些步骤应该构成合成的一部分。本书的第10章介绍了人工智能技术在分子逆合成设计中的应用。这些新方法利用大量数据资源构建人工智能模型,能够快速准确的预测已被证明具有人类专家竞争力的合成路线选择。新药研发是一项系统性的多学科融合的工作,现如今PubMed已收录3000万篇生物医学文献,从庞大的文献资源中挖掘相关数据是非常有价值的事情。本书的第11章介绍了基于深度学习的生物医学命名实体识别方法,这是关系实体特征提取和知识图谱构建的基础。

人工智能技术在新药研发中的广泛应用有效提升了新药研发的速度和效率,我们期望随着技术的不断进步和成熟,产出更多智能药物分子,推动整个行业的进步和发展,使更多疾病得以治愈。

在此,感谢中国石油大学(华东)的李雪、韩佩甫、代欢欢、王干、张旭东、张莹、高畅楠、焦麟钫、任咏琪、王璐璐对本书审校工作的贡献。感谢清华大学出版社邓艳编辑在本书出版审校方面的支持和帮助。

人工智能技术发展迅猛,作者对许多问题并未做深入研究,加上作者知识水平和实践经验有限,书中难免存在不足,敬请读者批评指正。关于本书内容,如果您有更多的宝贵意见,可关注深度奇点和DrugAI微信公众号与我们进行互动交流,期待能够得到您的真挚反馈,在技术道路上互勉共进。

编者