自然语言处理——原理、方法与应用
涵盖自然语言处理预训练模型、模型蒸馏与剪枝等多个领域的知识!助力构建属于自己的自然语言处理知识体系

作者:王志立、雷鹏斌、吴宇凡

丛书名:计算机技术开发与应用丛书

定价:59元

印次:1-3

ISBN:9787302617747

出版日期:2023.03.01

印刷日期:2025.07.02

图书责编:赵佳霓

图书分类:零售

电子书
在线购买
分享
内容简介
作者简介
前言序言
资源下载
查看详情 查看详情 查看详情

本书系统阐述自然语言处理基础知识,以及自然语言处理高级模型应用等高级知识。 全书共11章:第1~5章为自然语言处理的基础知识,第6~11章则将自然语言处理知识应用于实战。书中主要内容包括预训练模型、文本分类、机器阅读理解、命名实体识别、文本生成、模型蒸馏与剪枝及损失函数等知识。 书中包含大量应用示例,不仅可以学会理论知识还可以灵活应用。书中示例基于Linux与PyTorch环境开发,读者在学习自然语言处理知识的同时还可学会PyTorch框架技术,内容完整、步骤清晰,提供了工程化的解决方案。 本书可作为有一定深度学习基础的读者的入门书,也可作为从事自然语言处理算法工作的技术人员及培训机构的参考书。

"王志立,自然语言处理工程师,曾在国际与国内的学术会议上发表学术论文多篇,先后在腾讯等多家知名企业从事大数据与人工智能算法工作,运营和分享人工智能相关知识,曾获得多项人工智能比赛国家级奖项。雷鹏斌,深圳大学硕士,华为AI算法工程师,主要从事chatops、知识图谱的研究与应用工作,对自然语言处理各项任务的研究与应用具有经验丰富。2019—2021年在国内知名竞赛的文本分类、命名实体识别、机器阅读理解、智能问答,以及文本生成任务中摘获大量荣誉。曾参与多项课题研究,在AAAI、中文信息学报等高影响力会议上发表多篇文章。吴宇凡,腾讯算法应用研究员,长期从事业务安全和金融量化相关算法研究和实践,已发表国际**会议论文多篇,申请专利数篇。"

前言 笔者在这短短一年多的时间里经历了人生中很多大事,在编写本书的同时,人工智能自然语言处理领域的发展也经历了很多大事件,有预测蛋白质结构的alphafold模型、有1750亿参数量的超大无比GPT3屠榜自然语言处理各个任务的榜单,也有实现增量推理与分布式推理的盘古预训练模型。总体来讲,自2018年底谷歌公司发布BERT预训练模型后,自然语言处理领域呈现井喷式发展,但是,无论当前自然语言处理模型如何发展,其仍旧基于深度神经网络,无非是网络的结构、神经元的数目及使用的硬件资源不同罢了。 信息时代的来临,人类从信息匮乏的年代走向信息爆炸的年代,现在的学习资料多如牛毛,但量大并不代表质优,因此,如何将杂乱无章的知识点整理成高效可拓展的知识路线,是笔者在编写本书时无时无刻不在思考的问题。本书从一个人工智能算法工程师的角度并依据笔者多个国家级竞赛的获奖经验编写,目的是让每个读者都能够从流程化的算法中掌握一条符合自己的学习路线。 因此,本书将搭建一个自然语言处理的学习框架,以帮助读者用最低的学习成本掌握自然语言处理任务。这不仅可以帮助读者构建属于自己的自然语言处理知识宇宙,同时也方便读者可以基于自己的知识体系进行二次拓展,加深对自然语言处理的理解。本书的内容涉及自然语言处理领域的算法流程、无监督学习、预训练模型、文本分类、智能问答、命名实体识别、文本生成、模型的蒸馏与剪枝等。 本书是笔者在清华大学出版社出版的第二本书。不得不说,完成一本书的过程非常艰辛但十分有意义,笔者将其当成另一种形式的创业,也是对自己思考方式另一个维度的锤炼,同时也是向这个...

目录
荐语
查看详情 查看详情

目录

本书源代码

目录

第1章导论(13min)

1.1基于深度学习的自然语言处理

1.2本书章节脉络

1.3自然语言处理算法流程

1.4小结

第2章Python开发环境配置(35min)

2.1Linux服务器

2.1.1MobaXterm

2.1.2使用MobaXterm连接远程服务器

2.1.3在服务器上安装Python开发环境

2.1.4使用Anaconda国内源

2.1.5pip设定永久阿里云源

2.2Python虚拟环境

2.3PyCharm远程连接服务器

2.4screen任务管理

2.5Docker技术

2.6小结

第3章自然语言处理的发展进程

3.1人工规则与自然语言处理

3.2机器学习与自热语言处理

3.2.1词袋模型

3.2.2ngram

3.2.3频率与逆文档频率

3.3深度学习与自然语言处理

3.4小结

第4章无监督学习的原理与应用(30min)

4.1浅层无监督预训练模型

4.2深层无监督预训练模型

4.2.1BERT

4.2.2SelfAttention Layer原理

4.2.3SelfAttention Layer的内部运算逻辑

4.2.4MultiHead SelfAttention

4.2.5Layer Normalization

4.2.6BERT预训练

4.2.7BERT的微调过程

... 查看详情

"● 深入浅出  在系统阐述理论的同时,深入浅出地结合前沿论文、代码实践及合适的应用场景,为读者提供通俗易懂的自然语言处理任务的环境和案例。
● 衔接连贯  采用同一套代码框架贯穿全书,强调知识体系的全面性和可拓展性,注重理论与实践的前后连贯性。
● 技术前沿  介绍自然语言处理的起源与发展、文本分类、机器阅读理解、命名实体识别、文本生成、模型蒸馏与剪枝等前沿技术,激发读者学习兴趣,开拓读者视野。
"

查看详情