前言
计算机视觉是人工智能领域的核心组织部分,在日常生活中无处不在。从智能手机的人脸识别,到智能驾驶的视觉感知,计算机视觉技术已渗透到生活的方方面面。为了使读者更好地了解计算机视觉领域,本书从计算机视觉的基本概念、理论框架、关键技术以及最新进展等维度进行组织,内容涵盖基础图像处理、高级三维重建、前沿深度学习和多模态内容生成等。此外,本书还注重强调实践性和实用性,在每章理论讲解后,给出了一些具体实例和应用,帮助读者更好理解和掌握对应的知识点。
全书共13章。第1章绪论中对计算机视觉的概念进行解读,并简要阐述计算机视觉的发展脉络; 第2章视觉信息获取从基本的几何原理逐步深入到复杂的摄像机模型,帮助读者建立对视觉信息的认识; 第3章图像视频处理介绍相关的基础知识、核心技术和主要应用场景; 第4章视觉特征提取讲述如何从图像视频等视觉数据中提取出具有代表性的特征信息并去除冗余; 第5章视觉特征配准讲述如何通过识别和关联特征点估计帧与帧的变换关系; 第6章三维场景重建对从图像或传感器数据复原物理环境三维结构进行介绍; 第7章视觉目标识别主要目的是对输入的视觉信息进行分析以完成分类任务; 第8章视觉语义分割讲述如何通过预测像素标签实现对图像中每个封闭区域的语义理解; 第9章视觉目标检测介绍估计视觉目标的检测框; 第10章视觉目标跟踪模拟生物视觉系统在动态环境中识别和跟踪运动物体的能力; 第11章视觉内容检索主要介绍图像检索和视频检索两部分内容; 第12章视觉内容生成深入探讨生成模型的多样性和复杂性; 第13章计算机视觉前沿对目前的发展趋势和关键问题做了展望。
本书由清华大学鲁继文担任主编,段岳圻、唐彦嵩、陈磊共同合著完成。在此特别感谢对本书做出重要贡献的同学们,尤其是张博睿、王紫颐、许修为、韦祎、赵林清等在素材搜集和图片编辑工作中的无私奉献。本书的顺利完成,得益于他们提供的丰富资料、宝贵心得与建议,在此谨向他们所付出的辛勤努力致以诚挚谢意。
本书在编写过程中,参考和引用了大量国内外相关文献、学位论文、网络论坛、培训内容及会议资料等,在此一并表示衷心感谢。尽管书末已列出参考文献,但恐仍有疏漏之处,在此谨向可能未被准确引用的作者致以歉意,我们将在后续版本中及时修正并补充遗漏内容。
鉴于编者水平有限,加上计算机视觉技术发展迅速、更新迭代频繁,书中难免存在不足之处,乃至错误疏漏,恳请各位读者不吝指正,我们将深表感谢!
作者
2025年8月
