图书前言

第 2版前言

大数据、大算力、大模型技术的快速发展极大地推动和改变着自然语言处理领域的研究和应用方式、方法,这种改变的速度远远超出了我们的预估和设想。几乎在《文本数据挖掘(第 1版)》出版的同时,预训练语言模型逐渐兴起,并得到了快速推广和应用。随后一系列大规模预训练语言模型不断在文本数据挖掘诸多任务上取得了更强的性能,获得了广泛的成功。与此同时,我们也发现了第 1版中的缺陷和不足,热心的读者以不同方式给我们提出了宝贵的建议。这些因素促使我们撰写了第 2版。

第 2版与第 1版的主要区别体现在如下三个方面:①内容更加丰富:在第 2版中除了增加最近几年流行的预训练语言模型(包括 BERT,GPT-3等)以外,还增加了最后一章技术应用,通过两个应用案例将全书各章的知识点串联起来,让读者看到每一章中介绍的技术如何在实际应用中发挥作用。②对部分内容进行了整合:考虑到神经网络模型是分布式表示和深度学习方法的基础性知识,第 1版第 3章和第 4章中均有涉及,部分内容略有重叠,因此,第 2版对这两章内容进行了整合。③增加了习题:在第 2版中各章最后增加了习题,以便于读者,尤其是学生结合每章的内容进行练习和实践。

在第 2版的撰写过程中得到了很多同事和朋友的帮助,他们或提供素材,或与作者讨论书中的内容,或帮助作者校对书稿。他们是中科院自动化所自然语言处理团队的向露博士和赵阳博士、北京中科凡语科技有限公司技术团队、南京理工大学计算机学院博士生沈祥清等。在此谨向他们表示衷心的感谢!同时感谢在互联网上对本书第 1版提出修改建议的热心读者们。

本书的撰写工作得到了中国科学院大学教材出版中心的资助(项目编号: YJF0812003),特此感谢!

还是那句老话,尽管作者尽了最大努力希望把这本书写好,但限于水平和时间,书中难免有诸多不足和疏漏。我们真诚地欢迎并接受读者以任何方式给予的批评指正!

作者 2021年 12月