前言
得益于深度学习技术的快速发展以及计算能力和数据的爆发式增长,近些年来人工智能领域迈入了蓬勃发展的时期,并在人脸识别、城市智能交通管理、智慧医疗等诸多领域取得了令人瞩目的成果。其中,视频内容智能分析作为人工智能领域的重要组成部分,在智慧城市的建设中有着极大的应用价值,得到了业界广泛的关注。本书重点涵盖了视频内容智能分析相关技术,旨在帮助人工智能相关方向的学生、技术人员及兴趣爱好者们更好地了解和掌握其中涉及的理论知识,并能够进行深入的应用实践。
视频内容智能分析涉及的内容十分广泛,本书将重点介绍其中的超分辨率重建、目标检测及跟踪、跨镜行人重识别、行为及生理信号分析等方面,并对作者团队在这些技术的基础上所开发的“非配合环境下视频智能分析算法与平台”进行具体讲解。这些核心技术的背后有着诸多经典的机器学习方法和深度学习理论,考虑到这些理论所涉及的专业知识对初学者来说具有一定的困难,本书试图尽可能避免复杂的数学证明和推导,在每章中尽量采用相对通俗易懂的语言来描述具体的应用背景和技术原理。此外,本书还开源了部分实战案例的代码,希望将理论与实践相结合,以更好地让读者理解并掌握其中的技术实现细节。
本书从视频内容智能分析的研究和应用背景开始讲起,然后逐步延伸到其中涉及的几大重要方向,并有选择性地对各个方向的经典思想、技术路线以及最新的方法进行深入介绍。本书紧密结合学术及业界的技术前沿,通过由浅入深、图文并茂的方式,完整地剖析了传统经典理论及深度学习方法在视频内容智能分析领域中各个维度的重要成果,而不仅仅停留在简单的理论阐述和结果展示上。
具体地,本书从以下几个方面来阐述视频内容智能分析技术。
第1章概述了视频内容智能分析的研究背景、常用数据集以及代表性的模型训练策略,让读者对本书内容有一个初步的了解。
第2章介绍了视频超分辨重建技术,包括问题定义、现有基于深度学习方法的超分辨简介,并对未来的超分辨技术发展方向进行了探讨。
第3章分析了视频目标检测所涉及的关键技术和应用场景,并对其中的挑战性问题进行了总结。
第4章讲解了视频中的多目标跟踪技术,包括现有技术方法的类型、存在的问题以及技术发展趋势等。
第5章着眼于跨镜行人重识别,对基于局部特征、表征学习、跨域迁移、视频序列和图论的行人重识别理论和实践案例进行了详细介绍。
第6章探讨了人体行为分析的相关技术,从研究背景和难点问题出发,循序渐进地展现了行为识别和行为检测等技术的发展路线和未来方向。
第7章呈现了基于视频分析的生理信号检测技术,以光电容积脉搏波理论为基础重点介绍基于视频的非接触式人体心率、血压、血糖等生理信号的捕获及分析。
第8章介绍了卷积神经网络模型的压缩与加速技术,重点叙述主流的模型剪枝、模型量化、知识蒸馏等方法,并简要讲解了其他压缩与加速方法。
第9章在前述章节技术的基础上,对作者团队所开发的“非配合环境下视频智能分析算法与平台”进行了详细的介绍,旨在让读者对视频内容智能分析各项技术的实战应用及架构设计有更加深入的理解。
本书工作得到了之江实验室重大项目(2019KD0AC02)和国家自然科学基金(62103380)的支持,之江实验室与浙江工商大学智能视觉团队成员参与了编写,包括孙立剑、唐乾坤、章依依、徐芬、张逸、张文广、贺菁菁、吴翠玲、李玲、李悦、魏日令、王小龙、曹卫强、何鹏飞、王军、徐冠雷、张锦明、陈少辉等。本书在编写过程中得到了领域内深耕多年的学者和工业界资深工程师们的指导和帮助,经过深刻的讨论和完善,本书从理论到实战的不同层面都有了极大的升华,能够满足不同人群的实际需求。但考虑到本书所涉及的智能分析技术内容庞杂、发展日新月异,且作者才疏学浅,书中难免有不当之处,恳请读者批评指正,不胜感激。
作者
2023年12月12日于杭州