





作者:冯方向、王小捷
定价:99元
印次:1-3
ISBN:9787302637479
出版日期:2023.09.01
印刷日期:2024.07.01
图书责编:张玥
图书分类:教材
内容上,本书力求系统地介绍基于深度学习的图文多模态信息处理技术,侧重介绍最通用、最基础的技术,覆盖了多模态表示、对齐、融合和转换等四大关键技术。同时也介绍了多模态信息处理领域的**发展前沿——多模态预训练模型。此外,为了让读者可以实践这些多模态深度学习技术,本书提供了四个完整的实战案例,分别对应多模态表示、对齐、融合和转换这四个关键技术。 具体而言,本书的内容分为四个部分:初识多模态信息处理、单模态表示、多模态信息处理的关键技术、多模态预训练模型。 第一部分包括两个章节:第1章介绍多模态信息的基本概念、难点、使用深度学习方法的动机、多模态信息处理的关键技术以及这些技术的发展历史,第2章介绍若干同时涉及图像和文本的多模态热门研究任务。 第二部分包括两个章节:第3和4章分别介绍了多模态信息处理中常用的文本表示和图像表示方法。 第三部分包括四个章节:第5、6、7、8章分别介绍面向特定任务的多模态表示、对齐、融合和转换这四个关键技术,且每一章都提供了一个可运行的完整的实战案例。 第四部分包括一个章节:第9章介绍综合使用上述关键技术,并以学习通用多模态表示为目标的多模态预训练模型。
冯方向,北京邮电大学人工智能学院助理教授,于北京邮电大学获得工学学士和博士学位。主要从事多模态认知计算方向的研究,在相关领域的高水平国际期刊、会议上发表学术论文30余篇。曾以第一作者身份发表论文获多媒体顶级会议ACM Multimedia最佳论文提名,单篇引用超过500次,主持和参与国家级科研项目5项。现主讲本科生课程《神经网络与深度学习》和《多模态信息处理》。作为项目负责人承担北京邮电大学 “高新课程”建设项目1项,作为骨干成员参与省部级产学合作协同育人项目《机器学习》创新创业课程建设以及北京邮电大学2022年研究生专业课程建设项目面上项目1项。
前 言 视觉、听觉、触觉、嗅觉、味觉是人类拥有的五种感知觉,每一种感知觉都为我们提供了关于我们生活的世界的独特信息。尽管这五种感知觉各不相同,但是我们对周围世界的感觉却是统一的多感觉体验,并不杂乱。粗略地说,人类可通过多种感知觉获得对物理世界的统一的多模态的体验。随着移动互联网的发展,通过多个模态的信息共同表示的数据的规模迅速增大,迫切需要发展综合处理多个模态信息的理论、方法和技术。因此,多模态信息处理的研究具有重要的科学意义和广泛的应用需求。 在深度学习出现以前,多模态信息处理的研究进展较为缓慢,主要集中在少数几个特定任务上。2010年之后,深度学习技术使用相同的基础结构和优化算法在图像、文本、语音数据处理上不断取得突破,为将其应用于处理多模态信息数据提供了条件。基于深度学习的方法帮助多模态信息处理取得了巨大的突破,提升了大多数已有多模态任务的性能,也使得解决更加复杂的多模态任务成为可能。因此,本书专注介绍基于深度学习的多模态信息处理技术。 尽管多模态信息处理近年来才成为人工智能领域的研究热点,但是本书作者有超过10年的多模态信息处理研究经验,且在2013年就发表过使用深度学习方法进行图文跨模态检索的研究论文。作者所在的北京邮电大学智能科学与技术中心团队也为2012级及以后的智能科学与技术专业本科生开设了“多模态信息处理”课程。本书正是以这门课程的讲义为主要内容编写而成的,是团队在多模态信息处理领域长期的科研和教学成果的结晶。 内容上,本书力求系统地介绍基于深度学习的多模态信息处理技术,侧重介绍最通用、最基础的技术,覆盖了多模态表示、对齐、融合和转换4种基础技术...
目 录
第1章 绪论 1
1.1 多模态信息处理的概念 1
1.2 多模态信息处理的难点 2
1.3 使用深度学习技术的动机 3
1.4 多模态信息处理的基础技术 4
1.4.1 表示技术 4
1.4.2 对齐技术 4
1.4.3 融合技术 5
1.4.4 转换技术 5
1.5 多模态深度学习技术的发展历史 5
1.6 小结 8
1.7 习题 9
第2章 多模态任务 10
2.1 图文跨模态检索 10
2.1.1 数据集 11
2.1.2 评测指标 12
2.2 图像描述 13
2.2.1 数据集 14
2.2.2 评测指标 14
2.3 视觉问答 19
2.3.1 数据集 20
2.3.2 评测指标 23
2.4 文本生成图像 23
2.4.1 数据集 24
2.4.2 评测指标 25
2.5 指称表达 27
2.5.1 数据集 29
2.5.2 评测指标 30
2.6 小结 31
2.7 习题 31
第3章 文本表示 32
3.1 基于词嵌入的静态词表示 33
3.1.1 Word2vec 33
3.1.2 GloVe 35
3.2 基于循环神经网络的动态词表示 36
3.2.1 循环神经网络基础 36
3.2.2 现代循环神经网络 37
3.2.3 动态词表示和整体表示 40
3.3 基于注意力的预训练语言模型表示 42
3.3.1 自注意力 43
3.3.2 transformer编码器 46
3.... 查看详情
● 提供四个完整的实战案例,分别对应多模态表示、对齐、融合和转换这四个基础技术,把多模态深度学习技术融入实践中,加深学生对技术的理解和掌握。提供案例的Jupyter Notebook文件,支持教师一键讲解。
● 可作为高等院校相关专业的教材,也可作为教辅资料,还可作为学习多模态深度学习技术的参考书。
"