前言
近年来,人工智能发展迅速,不断地改变人类的生产和生活方式,极大地推动了社会经济的发展,已成为驱动新一轮科技革命和产业变革的重要力量。人工智能的发展得益于多方面因素: 一方面算力的不断增长,为人工智能的发展提供了有力的硬件支撑; 另一方面大数据时代海量数据的积累,为人工智能的发展奠定了数据基础; 更重要的是人工智能算法的进步和优化,为人工智能的发展提供了原动力。近年来,推动人工智能发展的关键技术之一就是深度学习。深度学习是机器学习领域一个新的研究方向,其本质是利用人工神经网络架构,对数据进行特征学习与决策的算法。深度学习是一种复杂的机器学习算法,具有特征提取、表征及预测能力。传统机器学习方法将特征提取与分类决策作为两个问题进行处理,特征提取依赖人工设计的特征,提取特征后选用浅层模型进行分类预测; 深度学习方法不需要人工设计特征,而是依赖算法自动学习提取特征的方法,同时对特征进行分类,特征提取与分类预测融为一体,采用端到端的训练模式。深度学习模仿了人类大脑的运行方式,从经验数据中学习获取知识。深度学习在视觉信息分析、机器翻译、人机对话、语音识别与合成、机器人以及其他相关领域都取得了众多丰硕的成果。
本书共12章。第1章从人工神经网络的起源说起,阐述了随着时代的变迁,人工神经网络由传统浅层算法演变为当前深度学习方法跌宕起伏的发展历程。在第2章中,对人工神经网络基础进行了阐述,包括感知器、BP网络以及反向传播算法,这是人工神经网络理论发展的根基。第3章对一种自监督架构——自编码器进行了阐述,自编码器也是深度学习初次被提出时所采用的网络训练机制。第4章到第7章分别对卷积网络基础、卷积网络架构的发展以及卷积网络在目标检测算法中的应用进行了阐述,卷积网络是深度学习早期发展最为迅速的一个分支,在视觉信息的处理中发挥了重要作用。第8章、第9章对序列信息处理模型循环神经网络、长短时神经网络进行了阐述,详尽分析了循环网络的正向计算以及误差反向传播原理,为学生利用相关模型进行语言建模奠定基础。第10章对基于注意力方式的架构Transformer模型进行了介绍,分析了模型的详细工作原理,以及基于Transformer构造的GPT、BERT等大型语言模型的工作原理。第11章对生成式模型进行了介绍,分析了对抗网络、变分自编码器、扩散模型等的工作原理。最后,第12章对深度学习框架进行了简要的介绍。
本书在取材和编排上,由浅入深、循序渐进地讲解典型的深度学习模型的正向计算过程、误差反向传播原理等内容,便于读者学习和教学使用。
本书由许庆阳、宋勇、张承进编著,张承进编写第1、2章,许庆阳编写第4、5、6、7、8、9、10章,宋勇编写第3、11、12章。感谢刘晓潇、丁凯旋、于洋、刘志超、李国光、滕俊等研究生参与本书的文字处理工作。
本书可以作为高等学校自动化、计算机、人工智能、机器人工程、智能科学与技术等专业的深度学习理论的教学用书,也可作为相关技术人员的参考用书。
本书在编写过程中参考和引用了许多文献,在此对文献作者表示真诚的感谢。由于编者水平有限,书中难免存在错误和不妥之处,敬请广大读者批评指正。
许庆阳
2023年4月
