首页 > 图书中心 >图书详情

PyTorch语音识别实战

实战语音唤醒、音频特征抽取、语音情绪分类、Whisper语音转换、鸟叫多标签分类、多模态语音文字转换

作者:王晓华
丛书名:人工智能技术丛书
定价:69
印次:1-2
ISBN:9787302655657
出版日期:2024.03.01
印刷日期:2024.09.30

《PyTorch语音识别实战》使用PyTorch 2.0作为语音识别的基本框架,循序渐进地引导读者从搭建环境开始,逐步深入到语音识别基本理论、算法以及应用实践,是较好的一本语音识别技术图书。本书配套示例源码、数据集、PPT课件等资源。 《PyTorch语音识别实战》分为13章,内容包括语音识别之路、PyTorch 2.0深度学习环境搭建、音频信号处理的理论与Python实战、音频处理常用工具包Librosa详解与实战、基于DNN的语音情绪分类识别、一学就会的深度学习基础算法、基于PyTorch卷积层的语音情绪分类识别、词映射与循环神经网络、基于Whisper的语音转换实战、注意力机制与注意力模型详解、鸟叫的多标签分类实战、多模态语音转换模型基础、GLM架构多模态语音文字转换实战。 《PyTorch语音识别实战》内容详尽、示例丰富,适合作为语音识别初学者、深度学习初学者、语音识别技术人员的必备参考书,同时也非常适合作为高等院校或高职高专深度学习、语音识别等课程的教材。

more >

前 言 随着信息科技的日新月异,人工智能已经成为新时代经济发展的引擎,而深度学习作为其背后的强大推动力,正在无声无息地改变着我们的生活。语音识别,作为人工智能领域中一颗璀璨的明珠,从智能家居到自动驾驶,从语音助手到无数其他的创新应用,它正在持续地拓展其应用边界,改变着人与机器的交流方式。 本书旨在为读者揭开语音识别的神秘面纱,通过深入浅出的讲解和丰富的实践案例,带领读者走进语音识别的奇妙世界。我们不是只停留在理论的探讨,而是通过大量的实战案例,让读者亲手体验深度学习的魅力,掌握语音识别的核心技术。 本书以应用实战为出发点,结合最新的语音识别深度学习框架进行深入浅出的讲解和演示。作者将以多角度、多方面的方式手把手地教会读者如何进行代码编写,同时结合实际案例深入剖析其中的设计模式和模型架构。 总之,本书是一本理论与实践相结合、全面覆盖语音识别领域、培养创新思维和解决问题能力的专业书籍。通过本书的学习和实践,作者期望每一个读者都能全面掌握深度学习的程序设计方法和技巧,为未来的实际工作做好充分准备。 本书特点 (1)内容与结构的系统性。本书从语音识别的基本概念、发展历程讲起,逐步深入到音频信号处理、深度学习算法、多模态语音转换模型等核心领域。每个章节的内容安排都能做到逻辑清晰、循序渐进,保证了知识的连贯性和易读性,使读者能够在学习的过程中建立起完整的知识体系。 (2)前沿性与创新性。本书站在学术的最前沿,详细介绍基于深度学习的端到端语音识别、多模态架构的语音识别与转换等最新技术。同时,通过介绍GLM架构等多模态语音文字转换的实战内容,展示语音识别技术的创新应用,让读者领略到科技创新的无穷魅力。 (3)实战性与实用性。本书通过大量实战案例,如基于深度学习的语音唤醒、音频特征提取、语音情绪分类识别等,让读者在动手实践中掌握语音识别技术的具体应用。这些案例不仅具有代表性,而且贴近实际应用,对于读者提升实践能力和解决现实问题具有很强的指导意义。 (4)跨学科融合。本书不仅涵盖了语音识别领域的专业知识,还巧妙地融合了音频信号处理、深度学习算法、自然语言处理等相关学科的基础知识。这种跨学科的知识融合有助于读者构建完备的知识体系,并从多个维度深刻领悟语音识别技术的内涵与外延。 (5)语言简明,易于理解。本书在撰写过程中注重语言的简明和表达的准确性,通过生动的比喻和形象的描述,将复杂的技术原理和算法变得通俗易懂。这种写作风格降低了读者的阅读门槛,增强了阅读过程中的愉悦体验。 资源下载和技术支持 本书配套示例源码、数据集、PPT课件,请读者用自己的微信扫描下边的二维码下载。如果学习本书的过程中发现问题或疑问,可发送邮件至booksaga@163.com,邮件主题为“PyTorch语音识别实战”。 适合阅读本书的读者 ?语音识别初学者。 ?深度学习初学者。 ?语音识别技术人员。 ?高等院校或高职高专相关课程的师生。 ?其他对语音识别感兴趣的技术人员。 指正与鸣谢 由于笔者的水平有限,加之编写时间跨度较长,在编写此书的过程中难免会出现不准确的地方,恳请读者批评指正。 感谢清华大学出版社所有老师在本书编写中提供的无私帮助和宝贵建议,正是他们的耐心和支持才让本书得以顺利出版。感谢家人对我的支持和理解。这些都给了我莫大的动力,让我的努力更加有意义。 著 者 2024年1月

more >
扫描二维码
下载APP了解更多

同系列产品more >

PyTorch深度学习与计算机视觉实践

王晓华
定 价:79元

查看详情
ChatGLM3大模型本地化部署、应用开...

王晓华
定 价:89元

查看详情
图神经网络基础、模型与应用实战

兰伟 叶进 朱晓姝
定 价:79元

查看详情
PyTorch深度学习与企业级项目实战

宋立桓 宋立林
定 价:69元

查看详情
机器学习实战(视频教学版)

迟殿委 王培进 王兴平
定 价:59元

查看详情
图书分类全部图书
more >
  • 王晓华,高校计算机专业讲师,研究方向为云计算、大数据与人工智能。其创作的部分图书:《从零开始大模型开发与微调:基于PyTorch与ChatGLM》《PyTorch 2.0深度学习从零开始学》《Python机器学习与可视化分析实战》《谷歌JAX深度学习从零开始学》《Spark 3.0大数据分析与挖掘:基于机器学习》《TensorFlow深度学习应用实践》《TensorFlow语音识别实战》《TensorFlow 2.0深度学习从零开始学》《深度学习的数学原理与实现》。

  • "众多实战案例,带你快速掌握语音识别应用开发
    基于特征词的语音唤醒实战
    短时傅里叶变换实战
    梅尔频率倒谱系数实战
    基于音频特征的声音聚类实战
    基于深度神经网络的语音情绪识别实战
    基于卷积神经网络的语音情绪识别实战
    基于循环神经网络的文本内容情感分类实战
    基于Whisper的语音转换实战
    拼音汉字转化实战
    鸟叫的多标签分类实战
    多模态语音文字转换实战"

more >
  • 目    录

    第1章  语音识别之路 1

    1.1  何谓语音识别 1

    1.2  语音识别为什么那么难 2

    1.3  语音识别之路—语音识别的发展历程 3

    1.3.1  高斯混合-隐马尔科夫时代 4

    1.3.2  深度神经网络-隐马尔科夫时代 5

    1.3.3  基于深度学习的端到端语音识别时代 6

    1.3.4  多模态架构的语音识别与转换 7

    1.4  基于深度学习的语音识别的未来 8

    1.5  本章小结 8

    第2章  PyTorch 2.0深度学习环境搭建 9

    2.1  环境搭建1:安装Python 9

    2.1.1  Miniconda的下载与安装 9

    2.1.2  PyCharm的下载与安装 12

    2.1.3  Python代码小练习:计算softmax函数 15

    2.2  环境搭建2:安装PyTorch 2.0 16

    2.2.1  Nvidia 10/20/30/40系列显卡选择的GPU版本 16

    2.2.2  PyTorch 2.0 GPU Nvidia运行库的安装 16

    2.2.3  PyTorch 2.0小练习:Hello PyTorch 19

    2.3  实战:基于特征词的语音唤醒 20

    2.3.1  数据的准备 20

    2.3.2  数据的处理 21

    2.3.3  模型的设计 24

    2.3.4  模型的数据输入方法 24

    2.3.5  模型的训练 25

    2.3.6  模型的结果和展示 26

    2.4  本章小结 27

    第3章  音频信号处理的理论与Python实战 28

    3.1  音频信号的基本理论详解 28

    ...

精彩书评more >

标题

评论

版权所有(C)2023 清华大学出版社有限公司 京ICP备10035462号 京公网安备11010802042911号

联系我们 | 网站地图 | 法律声明 | 友情链接 | 盗版举报 | 人才招聘