前 言
视觉、听觉、触觉、嗅觉、味觉是人类拥有的五种感知觉,每一种感知觉都为我们提供了关于我们生活的世界的独特信息。尽管这五种感知觉各不相同,但是我们对周围世界的感觉却是统一的多感觉体验,并不杂乱。粗略地说,人类可通过多种感知觉获得对物理世界的统一的多模态的体验。随着移动互联网的发展,通过多个模态的信息共同表示的数据的规模迅速增大,迫切需要发展综合处理多个模态信息的理论、方法和技术。因此,多模态信息处理的研究具有重要的科学意义和广泛的应用需求。
在深度学习出现以前,多模态信息处理的研究进展较为缓慢,主要集中在少数几个特定任务上。2010年之后,深度学习技术使用相同的基础结构和优化算法在图像、文本、语音数据处理上不断取得突破,为将其应用于处理多模态信息数据提供了条件。基于深度学习的方法帮助多模态信息处理取得了巨大的突破,提升了大多数已有多模态任务的性能,也使得解决更加复杂的多模态任务成为可能。因此,本书专注介绍基于深度学习的多模态信息处理技术。
尽管多模态信息处理近年来才成为人工智能领域的研究热点,但是本书作者有超过10年的多模态信息处理研究经验,且在2013年就发表过使用深度学习方法进行图文跨模态检索的研究论文。作者所在的北京邮电大学智能科学与技术中心团队也为2012级及以后的智能科学与技术专业本科生开设了“多模态信息处理”课程。本书正是以这门课程的讲义为主要内容编写而成的,是团队在多模态信息处理领域长期的科研和教学成果的结晶。
内容上,本书力求系统地介绍基于深度学习的多模态信息处理技术,侧重介绍最通用、最基础的技术,覆盖了多模态表示、对齐、融合和转换4种基础技术,同时也介绍了多模态信息处理领域的最新发展前沿技术——多模态预训练技术。此外,为了让读者可以实践这些多模态深度学习技术,本书提供了4个可运行的、完整的实战案例,分别对应多模态表示、对齐、融合和转换这4种基础技术。
本书可作为多模态信息处理、多模态深度学习等相关课程的教学参考书,适用于高等院校智能科学与技术和人工智能等专业的本科生、研究生,同时可供对多模态深度学习技术感兴趣的工程师和研究人员参考。
本书主要内容
如图1所示,本书内容分为4部分:初识多模态信息处理、单模态深度学习表示技术、多模态深度学习基础技术、多模态预训练技术。
图1 本书的内容结构
第一部分包括第1章和第2章,第 1章介绍多模态信息的基本概念、难点、使用深度学习方法的动机、多模态信息处理的基础技术,以及这些技术的发展历史,第 2章介绍若干热门的多模态研究任务。
第二部分包括第3章和第4章,分别介绍多模态深度学习模型中常用的文本表示和图像表示技术。
第三部分包括第5~8章,分别介绍面向特定任务的基于深度学习的多模态表示、对齐、融合和转换这4种技术,且每章都提供了一个可运行的、完整的实战案例。
第四部分即第9章,介绍综合使用上述基础技术,并以学习通用多模态表示或同时完成多个多模态任务为目标的多模态预训练技术。
致谢
感谢现在和曾经在北京邮电大学智能科学与技术中心从事多模态深度学习研究的全体老师和同学,本书的不少内容得益于团队的研究成果。
感谢微软亚洲研究院的吴晨飞博士为第7章的实战案例部分提供的代码支持。本书的编写参阅了大量的著作和文献,在此一并表示感谢!
感谢清华大学出版社为本书出版所做的一切。
由于作者水平有限,书中不足及错误之处在所难免,敬请专家和读者给予批评指正。
作 者
2023年8月