首页 > 图书中心 > 深度学习预训练语言模型(案例篇)

前言

前言

本书以深度学习预训练模型为基础,详尽介绍了中文金融文本情绪分类任务的人工智能工程项目实战案例。首先,本书介绍了金融领域中文自然语言处理的前沿技术,全面概述了预训练语言模型的演进过程,并对BERTology模型进行了详尽的文献综述。其次,本书阐述了从如何在如此众多的已预训练模型中选择适合目标域数据的模型,到真实地训练一个金融领域知识增强模型,再到通过对抗训练提升模型,最终在金融科技中的实际应用。虽然全书专注于金融文本情绪分类任务和数据,但本书揭示出了所有特定领域预训练模型潜在的一般规律,也就是说,仔细阅读完本书,读者可以建立任何一个特定领域的预训练模型,如医学、法律,等等。书中介绍了当前最实用的预训练模型程序代码,读者将知道如何利用它们来创建、微调、提升、评测一个特定领域预训练模型,从而设计出有效的策略。在有关基于预训练模型情绪分类的证券市场价格预测研究中,深入分析了预训练模型在金融领域的实际应用,让理论和实践紧密结合。

本书主要内容

本书的主要内容和章节安排大致如下。

第1章为预训练模型与金融文本情绪分类任务,阐述金融文本情绪分类任务的挑战、预训练模型发展现状及金融文本情绪分类任务意义,并对情绪分类、预训练语言模型和基于预训练模型的金融文本情绪分类任务的前人研究分别进行了综述。

第2章为预训练语言模型关键技术,用简洁的文字和理性的数学公式,在深度学习技术核心思想层面和统计学计算层面对预训练语言模型进行解读,并讲述了BERT预训练语言模型原理。

第3章为面向中文金融文本情绪分类的预训练模型对比,采用已预训练的权重和已标注的自建真实中文金融文本情绪分类语料库,对已发表的预训练语言模型的预测准确度进行横向对比,并分析结果找出模型中的内因。

第4章为FinWoBERT: 中文金融领域增强预训练模型的建立、训练和评测过程,通过未标注的金融词库和语料库的学习,改变WoBERT模型的领域偏差,对注入金融领域知识后的预训练模型进行评估,执行中文金融文本情绪分类任务,并与已发表的预训练语言模型进行比较。

第5章为GANFinWoBERT: 对抗训练的中文金融预训练模型,将未标注的语料库划分出一些对抗样本,在FinWoBERT预训练模型的训练过程中采用对抗训练的方法,对词嵌入添加扰动,提高模型应对对抗样本的鲁棒性; 同时可以作为一种正则化,减少过拟合,提高泛化能力。

第6章为FinWoBERT+ConvLSTM: 基于投资者情绪权重的科创50指数预测,结合股票市场来验证预训练模型对金融文本情绪分类的效果。

第7章为总结与展望,根据本书前几章的分析内容,得出研究结论,提出新的研究方向和研究建议。

其中,第3~6章存在逻辑递进关系,第3~5章都是探究性项目,第6章是验证性项目。本书的基本框架如图0.1所示。

图0.1本书基本框架

本书技术路线

本书在前人对中文金融文本情绪分类相关方法手段的基础上,以预训练语言模型为基础,从中文自然语言处理视角,建立基于预训练模型的中文金融文本情绪分类的研究思路,采用深度预训练语言模型的一般步骤: 载入数据、定义模型、编译模型、拟合模型、评估模型、预测验证、保存模型、调试模型,先对已发表的预训练语言模型进行对比,再提出改进的特定领域的预训练语言模型,并与前人已发表的模型进行比较,分别得出研究结论。最后,回顾全文,在总结分析的基础上,对未能突破的瓶颈给出研究建议。

本书综合运用面向自然语言处理的预训练和深度学习模型方法,跨越统计学、数学、信息科学与系统科学、计算机科学技术等多个学科的理论和实证方法。在研究过程中利用深度神经网络建模、模型推导、参数校准、数值模拟、数学计算、量化研究、数据分析等研究方法和手段。在统计自然语言模型、中文语言表征模型、深度学习模型的理论基础上,结合迁移学习、对抗学习、集成学习、Python人工智能编程、开源深度迁移学习框架云平台等前沿技术,研究中文金融文本情绪分类问题,既有对已发表的预训练语言模型的对比探讨,也有针对金融特定领域、特定任务的预训练语言模型的深入研究,为大数据自动化数字金融情景中的金融情绪分类深度学习方法、金融科技和监管科技运行下的人工智能运用提供了实践价值。

本书在以下几个方面有所创新。

(1) 真实公允的预训练语言模型比较。

虽然已经发表的预训练语言模型众多,而且很多模型都声称在国际基准(中文)公开语料库上取得了很不错的效果,但通常是在运用调参技巧(trick)、周密的数据清洗过程和精心挑选语料库测试样本下得到的,可能产生虚假统计(spurious statistics),同时鲜有文章在业界真实中文语料库上进行比较,而金融机器学习研究的重点是关注金融应用中机器学习方法的特定技术,关注真实世界的模型效果,而不是纯粹的理论方法,理论方法在纸面上看起来很漂亮,但在实践中的真实效果才是有意义的。

(2) 特定领域垂类预训练模型微创新。

本书借鉴以往研究方法的思路,使用了特定领域知识增强的预训练模型来研究中文金融文本情绪分类这一特定任务,对垂直领域预训练模型进行微创新,在自建标注语料库上取得了比已发表模型更佳的准确度、精确度、召回度、宏平均和微平均F1分数。

(3) 改进的金融领域预训练模型情绪分类在股票指数预测的应用创新。

传统金融情绪指数构建主要依赖于基于词典、简单的机器学习,也有少数文献使用预训练BERT模型,然而在现有文献中尚未发现使用金融特定领域预训练模型的。本书利用改进的已预训练中文金融文本情绪分类模型对投资者评论标题进行有效的分类,并赋予其一定的权值计算出一系列情绪权重数据,结合历史行情数据,实现了较低误差的时间序列预测,完成了金融领域预训练模型在金融市场中的验证。

读者对象

本书专注于采用预训练模型解决中文金融文本情绪分类问题,目标明确、特点鲜明、循序渐进、由浅入深,以预训练模型为主要研究内容、中文金融文本为应用领域、情绪分类为任务,探讨的关注点和创新的着眼点是方法和过程。本书适用人群包括: 

□ 自然语言处理领域的研究人员和技术人员; 

□ 金融科技领域的研究人员和技术人员; 

□ 高等院校计算机科学与技术、软件工程、信息工程、数据科学、人工智能、统计学、应用数学、自动化、控制论、运筹学、金融学相关专业的教师和学生; 

□ 有意了解预训练语言模型、金融文本情绪分类、BERTology的学习者和爱好者。

阅读门槛

阅读本书,应具备如下基础知识。

□ 深度学习相关基础理论知识; 

□ 深度学习框架PyTorch、TensorFlow、PaddlePaddle的Python编程。

阅读帮助

如果读者从未了解或不熟悉文本情绪分类、金融文本情绪分类、基于非预训练模型情绪分类的证券市场分析,请务必阅读1.3节。

如果读者从未了解或不熟悉预训练语言模型和BERTology,请务必阅读1.4节。

如果读者已经了解文本情绪分类和预训练语言模型,第1章可以略读或跳读。

配套资源

为便于教与学,本书配有微课视频(120分钟)、源代码、教学课件。

(1) 获取微课视频方式: 读者可以先刮开并扫描本书封底的文泉云盘防盗码,再扫描书中相应的视频二维码,观看视频。

(2) 获取彩色插图(PNG格式文件)和源代码(PY格式文件)的方式: 读者可以先刮开、扫描本书封底的文泉云盘防盗码,再扫描下方二维码,即可获取。

彩色插图(PNG格式文件)

源代码(PY格式文件)

(3) 其他配套资源可以扫描本书封底的“书圈”二维码,关注后回复本书书号即可下载。

本书作者在编写过程中,参考了诸多相关资料,在此对相关资料的作者表示衷心的感谢。限于个人水平和时间仓促,书中难免存在疏漏之处,欢迎广大读者批评指正。

作者

2022年5月

版权所有(C)2022 清华大学出版社有限公司 京ICP备10035462号 京公网安备11010802013248号

联系我们 | 网站地图 | 法律声明 | 友情链接 | 盗版举报 | 人才招聘