前言
语音信息处理融合了语音学、数字信号处理、心理学、计算机科学和模式识别理论等多学科知识,主要涉及语音增强、语音识别与合成、声纹识别与语音对话等关键技术,具有广阔的应用前景,在智能客服、智慧教育、智能家居、医疗健康、安防监控、车载系统及无障碍通信等领域发挥着重要作用,显著提升了人类生活质量、工作效率和社会智能化水平。随着人工智能的迅速发展,语音信息处理技术取得了显著进展,引发了学术界和工业界的广泛关注,推动了多个行业的智能化升级,同时为相关产业链的构建和国家重点应用场景提供了理论和技术保障。
本书系统总结了近年来语音信息处理领域的核心理论和关键方法,内容涵盖基础原理、前沿技术和应用场景,同时展示了该领域的最新研究成果。本书包括九章内容和附录,结构由浅入深、逻辑清晰,语言简洁易懂,帮助读者逐步掌握语音信息处理的核心概念和前沿动态。第1章为绪论,重点介绍语音信息处理的内涵与发展历史。第2章介绍语音听觉感知与信号处理基础,包括语音的物理和声学原理、数字化处理及基频和共振峰估计。第3章深入探讨语音增强,覆盖单通道与多通道的降噪、去混响、回声消除及基于深度学习的增强方法。第4章解析语音识别,介绍混合识别系统的声学和语言模型、解码技术及端到端和自监督预训练模型。第5章介绍语音合成的基本概念,包括文本分析、韵律处理、波形拼接和端到端合成方法。第6章讨论语音转换,涵盖平行与非平行语料的转换方法及其评价标准。第7章详述声纹识别,介绍基于高斯混合模型、神经网络和自监督学习的声纹表征与分类方法,并探讨欺骗攻击防御技术。第8章讲解情感语音,涵盖情感特征提取、建模及识别技术。第9章介绍语音对话系统,涵盖从规则驱动系统到基于大模型的端到端对话系统的核心模块和评测方法。附录部分介绍各章节涉及的基础算法知识。
本书既可以作为人工智能相关专业本科学生的基础教材,也可以作为人工智能从业者开发与应用的参考用书。
本书的撰写和出版汇聚了很多学者的心血,在清华大学陶建华教授的带领下前后七易其稿。在编写过程中,编者参阅了大量教学、科研成果,同时吸取了国内外教材的精髓。在此由衷感谢李冠君、刘斌、白烨、范存航、田正坤、张帅、任勇、周俊佐、晏鑫蕊、许乐、王成龙、汪涛、梁山、郑艺斌、杨国花、强春雨、钟荣秀、连政、张大伟、傅睿博、黄健的辛勤付出。感谢徐涛、王蓉、晏鑫蕊、任勇、周俊佐、许乐、宋磊超在图片绘制和排版上的贡献。感谢何佳毅、丁明明对可学习性和可读性提出的宝贵建议。在出版过程中,得到了清华大学出版社的大力支持,在此表示诚挚的感谢。
限于编者水平,书中难免有不足之处,恳请读者批评、指正。
编者
2025年12月
