图书前言

前言

计算机视觉(Computer Vision, CV)作为人工智能(Artificial Intelligence, AI)的一个重要分支,致力于让机器通过图像或视频来“理解”世界。随着AI技术的飞速发展,尤其是深度学习(Deep Learning, DL)技术的不断突破,计算机视觉的各研究领域也迎来了里程碑式的发展,相关研究成果不断被广泛应用于各行业领域,如智慧医疗、自动驾驶、工业智能检测、智慧交通以及智慧农业等,引领各行业的发展进入一个崭新的智能时代。高等学校积极响应时代需求,逐步将计算机视觉课程纳入本科教学体系,以培养适应智能时代需求和社会发展的新型专业人才。

本书重点面向人工智能、计算机科学与技术、数据科学与大数据技术等智能科学相关专业的人才培养,旨在帮助学生深入理解计算机视觉领域的基础理论知识、重要技术、核心算法设计及其应用。同时,本书也可面向其他专业学生,作为通识类计算机视觉课程的教材,以提升跨学科人才的综合素质。通过本书的学习,读者能够快速提升自己在计算机视觉领域的专业知识和技术能力,如图像分类、图像识别、目标检测等重要技术,并拓展在AI领域的视野,为未来的职业发展和学习奠定坚实的基础。本书在内容安排上遵循由浅入深、由易到难的架构,编撰和集成了本领域的重要理论知识和前沿技术成果。作为立足本科教学的教材,本书具有如下特色。

(1) 在内容选取上,涵盖了计算机视觉领域的四大重要研究方向,包括视觉分类和识别、目标检测与分割。结合计算机视觉领域的最新研究成果,全面讲解了这四个方向的基础理论知识和技术。教材内容遵循循序渐进的原则,从基础概念逐步过渡到高级应用,层次分明,逻辑清晰,便于读者系统学习和了解计算机视觉相关研究领域。书中所选案例的程序均经过调试和测试,程序代码中添加了说明,可读性好。

(2) 在内容编排上,着眼于学科发展前沿,借鉴了许多国内外优秀的计算机视觉教材和案例,确保教材的可读性和实用性。

(3) 在案例设计上,每一部分均有上机实践与理论相结合的案例。除基础篇之外,后两部分还给出了完整的案例演示,促使学生在学习相关前沿知识和技术的基础上,进一步理解计算机视觉技术在相关领域的实际应用。

(4) 在配套资源上,本书提供了各章的教学PPT和程序源代码,便于教师的课堂教学和学生自学。

本书主要内容

全书分为三篇,共9章。

基础篇(第1~3章)。

 第1章: 简要介绍计算机视觉的处理对象、一般处理过程、相近研究领域、典型应用等内容,旨在帮助读者对计算机视觉建立起整体感知和认识,激发读者的学习兴趣和欲望,进而开展后续的学习和研究。

 第2章: 重点讲解计算机视觉中的常用库与工具包,具体来说,包括OpenCV、Mahotas、PyTorch、PyTorch Lightning、Torchvision、OpenMMLab系列库、Fastai、TensorFlow等,对于每一个常用库或工具包,均详细阐述了其基本操作与相关实例的内容。

 第3章: 讲解深度学习基础,包括卷积神经网络(CNN)、生成式对抗网络(GAN)、视觉注意力网络(ViT)、多层感知机、扩散模型(Diffusion Model)、图神经网络(GNN)、神经架构搜索(NAS)7类主流深度学习模型的理论与实践应用。

分类与识别篇(第4、5章)。

 第4章: 主要从图像分类、视频分类以及细粒度分类这三个研究子领域开展全面的论述,深入剖析各类视觉分类任务的操作流程、方法、所用数据集等,并阐述其在医学和农业领域的应用。

 第5章: 主要介绍图像识别、视频识别、细粒度识别、长尾识别、光学字符识别和人脸识别等各个识别子方向,并重点阐述识别的处理方法、基本流程及应用等内容,应用部分与理论知识的结合旨在帮助读者深入理解理论知识和实操内容。

检测与分割篇(第6~9章)。

 第6章: 从通用目标检测、微小目标检测、交通工具检测等对目标检测进行了系统的概述,并通过讲解其他目标检测实例,给读者提供了部分目标检测在实际应用中的解决方案,以及其中可能存在的难点和未来的研究方向等。

 第7章: 深入探讨了图像分割这一重要视觉任务,介绍了语义分割、实例分割、全景分割、医学图像分割和视频目标分割等关键技术,并通过引入经典案例或算法剖析,展现了图像分割在不同应用场景中的强大作用和广阔前景。

 第8章: 阐述了显著性目标检测(SOD)的内容,包括面向RGB图像的SOD、面向RGBD图像的SOD、视频SOD、光场SOD等6个显著性目标检测的热门分支,以帮助读者全面了解该领域的相关研究内容和技术方案。

 第9章: 深入探讨伪装目标检测(COD)的发展历程、应用研究领域、常用数据集以及经典网络模型的架构及实现,并实现了基于CNN的COD实例。

参与编写本书的所有作者均来自贵州师范大学计算机视觉与机器学习实验室(GZNUCVMLL)和创新创业学院,具有人工智能、计算机视觉和深度学习等领域的多年科研和教学实践经验,主要作者王安志博士、周勋教授、欧卫华教授和齐松老师或负责一些章节的撰写,或深入各章来帮助精炼内容,或两者兼而有之。此外,有多位研究生参与了本书部分内容的撰写,其中,张凯丽、熊娅维参与了第1章和第4章的编写工作,杨成帮、唐洁亮参与编写了第2章,唐洁亮、杨成帮参与编写了第3章,张凯丽、唐洁亮、熊娅维和杨成帮参与编写了第5章,陈琨参与编写了第6章,任春洪、吴锦涛和钟俊敏分别参与编写了第7章、第8章和第9章。书中引用了一些著作、论文等相关资料的观点和内容,在此对这些资料的作者致以衷心的感谢。

本书得到了贵州师范大学2022年国家级创新创业学院项目与贵州师范大学2023年国家级一流课程“专创融合的教育实践”项目的资助。感谢贵州师范大学大数据与计算机科学学院、创新创业学院和教务处的大力支持,没有大家的支持和贡献,本书是不可能完成的。另外,由于作者水平有限,书中难免有不当和疏漏之处,敬请广大读者不吝指正。

编者2026年3月