





定价:69元
印次:1-1
ISBN:9787302679110
出版日期:2025.03.01
印刷日期:2025.03.06
图书责编:赵佳霓
图书分类:零售
"近年来人工智能技术突飞猛进,以语音识别为代表的音频处理技术取得了大量突破,但该领域内理论结合实战的入门书籍却较为缺乏,本书旨在为有志学习音频信号处理的读者提供一本实用的入门书籍。 本书共13章,第1章和第2章是基础部分,包括声学基础知识及Python基础等内容;第3到4章介绍了音频信号的获取及分析方法;第5~8章介绍了语音识别基础、传统语音识别技术及语音识别、语音合成的实战技术;第9章和第10章介绍了常用的音乐分析方法及Python编曲等内容;第11~13章介绍了深度学习的基础知识及如何用PyTorch对语音和音乐信号进行分析处理。 本书以通俗易懂的语言、图文并茂的讲解力图使读者在短时间内掌握音频信号处理的基本技术。本书既可供包括高校学生在内的各类初学者快速入门、也可供该领域的专业技术人员及爱好者参考。 "
姚利民,毕业于东南大学,长期在外资企业从事管理工作,同时致力于AI及图像处理的研究。2012年赴某知名跨国企业全球总部工作,回国后自主创业。目前专注于人工智能各领域的研究。著有《Java+OpenCV高效入门》和《Java+OpenCV案例佳作选》。
前言 近年来,以语音识别为代表的音频处理技术取得了重大突破。2008年底,谷歌公司发布了第1个语音搜索应用; 2010年,苹果公司收购Siri并将其改造成语音助手。此后的十余年,语音技术的发展日新月异。与此同时,相关领域也有一些新技术如雨后春笋般涌现,例如根据声音样本生成语音的声音克隆技术、用AI技术模仿人类唱歌的虚拟歌手、将歌声与伴奏分离的人声分离技术等。毋庸讳言,音频处理与计算机视觉一样都处于人工智能大潮的风口之上。 音频信号处理涉及众多的理论知识,单单语音识别领域就涉及梅尔倒谱系数(MFCC)、Fbank特征、共振峰、端点检测、动态时间规整(DTW)、高斯混合模型(GMM)、隐马尔可夫模型(HMM)等众多的概念,要在短时间内掌握这些内容纯属不易。以笔者的经验而言,理论性强的内容最好用浅显易懂的语言配以精美的插图进行阐述,加上精心设计的动手环节(计算过程或程序示例)则往往事半功倍,本书正是秉承这一理念写作而成。 与语音相比,音乐更具节奏性,而曲调、和弦等要素更是语音信号所不具备的,因此音乐信号的分析处理与语音信号有着明显的不同。此外,音乐还能以MIDI格式保存,这种近似乐谱的文件格式被广泛地应用于音乐创作、编辑等领域。MIDI音乐不仅可以通过音乐制作软件生成,也可以通过一些第三方库用编程的方式实现,而这也为自动作曲提供了极大的便利。本书不仅将对音乐信号分析的理论和方法进行讲解,也将对MIDI格式的处理和编曲等内容进行详细介绍。 随着人工智能时代的到来,深度学习在音频分类和识别等领域都发挥着不可或缺的作用。本书的最后几章将关注深度学习及其在音频处理领域...
本书源码
第1章基础知识
1.1声学基础
1.1.1声音的产生和传播
1.1.2声波的描述
1.1.3声音的客观衡量
1.1.4声音的主观属性
1.2音频文件格式
1.2.1WAV文件格式
1.2.2MP3文件格式
1.2.3MIDI文件格式
1.2.4其他文件格式
1.3Praat简介
1.3.1Praat概要
1.3.2Praat的下载和安装
1.3.3Praat的主要功能
1.3.4Praat基础操作
第2章Python基础
2.1Python简介
2.2Anaconda的安装
2.3主要Python库
2.4Python绘图基础
2.4.1散点图的绘制
2.4.2线性图的绘制
2.4.3图形的美化
2.4.4子图的绘制
2.5FFmpeg的安装与配置
第3章音频信号的获取
3.1采样与量化
3.1.1采样相关概念
3.1.2从话筒拾取信号
3.2读取音频文件
3.3从视频文件提取
3.4声音的合成
3.4.1纯音的生成
3.4.2复合音的生成
3.4.3音效的合成
第4章音频信号分析初步
4.1分帧
4.2加窗
4.3信号的时域分析
4.3.1短时平均过零率
4.3.2短时平均能量
4.3.3短时自相关函数
4.4信号的频域分析
4.4.1频谱图
4.4.2傅里叶变换
4...
通俗易懂 语言生动、浅显易懂,避免枯燥的理论和公式。
图文并茂 大量插图配合文字说明有助于抽象概念的理解。
内容丰富 包括声学基础、音频信号分析、语音识别、语音合成、音乐分析、MIDI编曲、深度学习等丰富内容。
轻松实战 采用Python和PyToch(深度学习部分)编程,门槛低,易学易会;主要函数列出函数原型,便于应用和参考。
大量示例 介绍了音频处理各领域众多Python库的用法,如NumPy、SciPy、Librosa、Pyaudio、Moviepy、Pydub、Soundfile、OpenAI-whisper、Pyttx3、SpeechLib、PyWorld、Parselmouth、Mido、Music21、PyTorch等。
"