清华大学出版社--图书简介

首页 > 图书 > 图书简介

"本书是一本系统论述语音信息处理技术与方法的综合性教材。全书共9章，内容涵盖语音听觉感知与信号处理基础、语音增强、语音识别、语音合成、语音转换、声纹识别、情感语音与语音对话系统等多个关键技术方向。

第1章绪论，介绍了语音信息处理技术的发展历程与分类，并概述了全书的结构安排。

第2章语音听觉感知与信号处理基础，从语音产生机制出发，系统讲解了语音信号的时域、频域及线性预测分析等基本处理方法。

第3章语音增强，主要阐述了单通道语音增强与多通道语音增强方法。

第4章语音识别，主要介绍了语音识别技术的核心原理与典型方法，涵盖从传统混合模型到端到端建模，再到当前前沿的大模型语音识别系统。

第5章语音合成，系统介绍了语音合成技术的基本原理、主要方法及其**进展，从传统拼接式方法到基于大语言模型的端到端合成技术。

第6章语音转换，包括语音转换的基本原理、主要技术及评价方法。

第7章声纹识别，分析了声纹识别的基本原理、主流建模方法、端到端建模技术及其安全性与评价指标。

第8章情感语音，围绕情感的定义、特征提取方法、情感识别模型及其发展趋势进行了探讨。

第9章语音对话系统，介绍了发展历程、关键技术路径以及基于大模型的端到端语音对话系统与评测方法。

本书适合高校学生作为语音信息处理相关课程教材，也可作为从事语音技术研发人员的自学参考书与工程实践指南。