生物信息学(又称计算生物学)是计算机、生物、数学等多学科交叉而新兴的学科分支,以借助计算机科学、信息科学等领域的算法与工具解决生命科学中的问题为主要特征。随着生命科学研究的深入和后基因组时代的来临,生物信息学所研究的问题已经发生了巨大的变化,新的研究越来越需要借助于高性能计算环境的支持,然而综合生命科学与高性能计算两个领域的知识、有效解决现实中的应用问题并不是一件容易的事,目前也缺乏系统深入的相关图书资料。编写这本《生物信息学导论》,作者希望在向读者介绍生物信息学中与高性能计算结合最密切的一些基础性问题,讨论并总结相关的求解算法与应用技术。
尽管本书定位在生物信息学“导论”的层次,但是作者并没有打算从生物信息学领域的概念内涵、发展现状入手,也没有追求内容上的面面俱到、或者对生物信息学领域内容进行泛泛介绍,而是有所选择地介绍了生物分子序列分析、基因发现、分子进化分析、蛋白质结构预测、蛋白质肽测序、生物学网络模块划分等具体问题的求解算法及原理实现。从这个意义上讲,也可以将本书看成是生物信息学部分专题内容的汇集。在每部分专题内容中,既有对经典方法的详细讨论,也融入了作者及其合作研究者最近几年研究的创新成果,既注重理论方面的方法(例如:利用谱分析挖掘PPI网络中的典型模式),也强调具体应用方面的实现(例如:利用MPI实现并行计算)。值得说明的是,结合作者知识背景与研究兴趣,本书在介绍各类生物信息学问题的求解方法时,特别关注了如何跟高性能计算技术相结合(例如:关于序列比对的并行计算)。
全书正文各章节结构如下图所示,共分为“预备知识篇”、“序列分析篇”、“蛋白质组分析篇”和“生物学网络分析篇”等四部分。
“预备知识篇”(包括第1章和第2章)提供了生物信息学分析中涉及的常用分子生物学、线性代数、概率统计以及计算机算法等方面的基础知识,不同知识背景的读者可以选择自己所需的内容。读者阅读时也可以直接跳过这两章,在后续章节需要相关知识时,再回头翻阅这些内容。
“序列分析篇”是全书的重点内容之一,共包括七章内容(第3章到第9章),主要涵盖生物大分子的序列比对、DNA序列上的基因识别(或称基因发现)和分子系统发育分析等。其中,序列比对共有三章,分别从经典基础算法、高性能并行实现以及基于字符串的模式匹配三个层面进行介绍;分子系统发育分析共有两章,分别介绍分子进化模型和进化树重构方法等内容;作为序列分析中最常用的一种模型,我们在本篇内容中专门介绍了马氏链和隐马氏模型(第7章),该模型在后续各篇中也有应用。
VI 序言
“蛋白质组分析篇”包括两章内容(第10章和第11章),分别介绍了基于序列预测蛋白质结构的计算分析,以及基于质谱数据分析的蛋白质序列测定方法等内容。
“生物学网络分析篇”是全书的最后一部分,共包含三章内容(第12章到第14章),重点以蛋白质相互作用为例,介绍了蛋白质相互作用预测、蛋白质相互作用网络的模块划分与功能预测等应用中的计算方法,最后一章系统总结了一般生物学网络中的数据挖掘方法与结果。
本书的读者对象是具有现代分子生物学及计算机科学基本知识的研究生及相关科研人员,在附加习题后也可作为生物信息学方面的入门及进阶教材,供分子生物学、计算机应用等专业的读者使用。为了照顾不同学科背景知识读者的需求,本书在开头还简要介绍了阅读后续章节所需要的分子生物学、数学及计算机科学基础知识;全书最后附有详细的主题索引、人名索引及以字母排序的参考文献,每条文献还特意标注了在正文中被引用处的页码,以方便读者检索。
本书是在为国防科技大学硕士研究生开设的“生物信息学导论”课程讲义以及作者从事国家自然科学基金项目研究成果的基础上整理而成。作者感谢2005—2010各学年选修这门课程学习的所有同学,他们参与课程讨论的许多内容构成了本书的基本素材;本书在选题与出版方面得到了国家自然科学基金(60603054)、湖南省自然科学基金(08JJ4021)及国家重点基础研究发展计划课题(2009CB723803)的资助。
在书稿准备出版过程中,清华大学出版社的广大员工给予了大力支持与帮助,在此
序言VII
一并表示感谢。
全书由王勇献主编,王正华对内容进行了统稿并提出了改进意见。由于作者水平所限,书中还有很多错误和不足之处,希望读者批评指正(作者联系方式:湖南长沙国防科技大学计算机学院,邮编:410073,电子邮箱:yxwang@nudt.edu.cn)。
作者于长沙
2010年12月