本书源码
第1章基础知识
1.1声学基础
1.1.1声音的产生和传播
1.1.2声波的描述
1.1.3声音的客观衡量
1.1.4声音的主观属性
1.2音频文件格式
1.2.1WAV文件格式
1.2.2MP3文件格式
1.2.3MIDI文件格式
1.2.4其他文件格式
1.3Praat简介
1.3.1Praat概要
1.3.2Praat的下载和安装
1.3.3Praat的主要功能
1.3.4Praat基础操作
第2章Python基础
2.1Python简介
2.2Anaconda的安装
2.3主要Python库
2.4Python绘图基础
2.4.1散点图的绘制
2.4.2线性图的绘制
2.4.3图形的美化
2.4.4子图的绘制
2.5FFmpeg的安装与配置
第3章音频信号的获取
3.1采样与量化
3.1.1采样相关概念
3.1.2从话筒拾取信号
3.2读取音频文件
3.3从视频文件提取
3.4声音的合成
3.4.1纯音的生成
3.4.2复合音的生成
3.4.3音效的合成
第4章音频信号分析初步
4.1分帧
4.2加窗
4.3信号的时域分析
4.3.1短时平均过零率
4.3.2短时平均能量
4.3.3短时自相关函数
4.4信号的频域分析
4.4.1频谱图
4.4.2傅里叶变换
4.4.3傅里叶变换的应用
4.5信号的时频域分析
4.5.1短时傅里叶变换
4.5.2语谱图
4.5.3宽带语谱图和窄带语谱图
4.5.4Praat中查看语谱图
4.6小波变换
4.6.1概述
4.6.2连续小波变换
4.6.3离散小波变换
4.6.4小波变换的应用
第5章语音识别基础
5.1语音的产生和感知
5.1.1语音信号的产生
5.1.2语音信号的感知
5.1.3语音信号的数字模型
5.2汉语的语音特征
5.2.1元音和辅音
5.2.2声母和韵母
5.2.3音素
5.2.4音调
5.3元音与共振峰
5.4语音端点检测
5.4.1音量法
5.4.2平均能量法
5.4.3双门限法
5.5基音估计
5.6梅尔倒谱系数
5.6.1MFCC特征提取步骤
5.6.2MFCC特征
5.6.3Fbank特征
第6章传统语音识别技术
6.1语音识别概述
6.2动态时间规整
6.3高斯混合模型
6.3.1高斯分布
6.3.2高斯混合模型
6.3.3GMMUBM
6.4隐马尔可夫模型
6.4.1马尔可夫链
6.4.2隐马尔可夫模型
6.4.3Viterbi算法
第7章语音识别实战
7.1Whisper的安装
7.2Whisper的使用
第8章语音合成
8.1文本转语音
8.1.1使用SAPI
8.1.2使用Pyttsx
8.1.3使用SpeechLib
8.2语音合成
8.2.1World声码器
8.2.2World声码器优点
8.2.3World的主要模块
8.2.4语音合成实战
第9章音乐分析
9.1常用音乐术语
9.2音乐分析常用指标
9.2.1频带能量比
9.2.2频谱特征
9.2.3恒Q变换
9.3声音的包络
9.4节拍检测
9.5音高识别
9.6调性分析
第10章MIDI文件编程
10.1MIDI文件格式剖析
10.1.1HC和TC
10.1.2时间差
10.1.3事件
10.2用Mido操作MIDI
10.3用Music21编曲
10.3.1Music21简介
10.3.2Music21的安装及配置
10.3.3Music21的层级结构
第11章深度学习基础
11.1神经网络基础
11.1.1神经元
11.1.2激活函数
11.1.3前馈神经网络
11.1.4梯度下降法
11.2PyTorch基础
11.2.1PyTorch简介
11.2.2PyTorch的主要模块
11.2.3PyTorch的安装
11.2.4张量
11.2.5计算图
11.2.6自动求导机制
11.2.7损失函数
11.2.8优化器
11.3案例: 声音的分类
11.3.1数据集介绍
11.3.2预处理
11.3.3数据载入类
11.3.4构建网络
11.3.5训练模型
11.3.6预测与验证
第12章常用神经网络
12.1卷积神经网络
12.1.1卷积运算
12.1.2池化
12.1.3卷积神经网络的结构
12.2循环神经网络
12.2.1RNN
12.2.2LSTM
12.2.3GRU
12.3案例: 音乐风格分类
12.3.1数据集介绍
12.3.2特征提取
12.3.3模型及训练
第13章深度学习与语音识别
13.1Word2Vec
13.1.1词向量
13.1.2Word2Vec
13.1.3Hierarchical Softmax
13.1.4负采样
13.2ELMo
13.3Transformer
13.3.1Transformer的构成
13.3.2位置编码
13.3.3注意力机制
13.3.4多头注意力
13.3.5残差连接和层归一化
13.3.6Transformer整体架构