目 录
第 1 部分 基础理论
第 1 章 目标检测概述 2
1.1 目标检测的基础概念 2
1.1.1 目标检测的定义与任务 2
1.1.2 目标检测的评估指标 4
1.1.3 目标检测方法的分类 7
1.1.4 目标检测方法的发展历程 11
1.2 目标检测的实际应用 15
1.2.1 人脸识别的进展与挑战 16
1.2.2 智慧交通中的目标检测应用 19
1.2.3 工业自动化检测的趋势 22
1.3 公开数据集与标准评测 23
1.3.1 PASCAL VOC数据集 24
1.3.2 MS COCO数据集 25
1.3.3 Visdrone数据集 26
1.4 本章小结 28
1.5 思考题 28
第 2 章 常用的深度学习框架 30
2.1 深度学习框架概述 30
2.1.1 Theano与TensorFlow 30
2.1.2 PyTorch 31
2.1.3 MXNet与Keras 33
2.2 搭建目标检测开发环境 35
2.2.1 使用Anaconda与Conda管理环境 35
2.2.2 配置PyTorch与TensorFlow 38
2.2.3 处理GPU与多GPU训练环境 40
2.3 数据处理与NumPy 42
2.3.1 创建与操作数组 42
2.3.2 矩阵运算与广播 44
2.3.3 数据增强与转换 46
2.4 本章小结 49
2.5 思考题 49
第 3 章 卷积神经网络 51
3.1 CNN的基础结构与原理 51
3.1.1 卷积层与池化层 52
3.1.2 激活函数与批量归一化 55
3.1.3 Dropout与正则化 58
3.2 经典卷积神经网络架构 61
3.2.1 LeNet与AlexNet 61
3.2.2 VGGNet与GoogLeNet 68
3.2.3 ResNet与DenseNet 72
3.3 高效卷积网络与自适应特征融合 76
3.3.1 Depthwise卷积与轻量化设计 76
3.3.2 特征金字塔网络 80
3.3.3 高效卷积网络的实践应用 87
3.4 本章小结 90
3.5 思考题 90
第 2 部分 技术实现
第 4 章 目标检测的前处理与数据增强 94
4.1 数据增强技术概述 94
4.1.1 图像裁剪与缩放 94
4.1.2 随机翻转与旋转 97
4.1.3 亮度与对比度的随机变化 100
4.2 数据的标准化与格式化 103
4.2.1 数据集的创建与预处理 103
4.2.2 VOC与COCO格式的转换 107
4.3 数据增强的新技术 110
4.3.1 图像混合技术:CutMix与MixUp 110
4.3.2 GAN生成的图像增强 113
4.3.3 自监督学习在数据增强中的应用 116
4.4 本章小结 120
4.5 思考题 120
第 5 章 YOLO架构初步演化与具体实现 121
5.1 YOLOv1的基本结构与工作原理 121
5.1.1 目标检测的回归问题 121
5.1.2 YOLOv1的优势与局限 126
5.2 YOLOv2与新技术的加入 127
5.2.1 批归一化与高分辨率特征图 127
5.2.2 先验框与多尺度训练 131
5.3 YOLOv3与性能优化 135
5.3.1 特征融合与多尺度检测 135
5.3.2 改进的损失函数 140
5.4 YOLOv4的创新与应用 144
5.4.1 结合CSPNet与PANet 145
5.4.2 高效训练策略 152
5.5 YOLOv5与YOLOv6的现代化设计 156
5.5.1 模块化设计与性能优化 156
5.5.2 YOLOv5在移动端的应用 157
5.6 初步实战:基于YOLOv5的目标检测框架实现 160
5.6.1 环境配置与框架搭建 160
5.6.2 模型训练结果分析及评价指标解析 163
5.6.3 加入CBAM模块的目标检测改进 169
5.6.4 基于Transformer的多头注意力机制改进 174
5.7 本章小结 178
5.8 思考题 179
第 6 章 YOLOv7至YOLOv11的一些改进 180
6.1 YOLOv7的特性与技术创新详解 180
6.1.1 新的主干网络与特征提取模块 181
6.1.2 对抗性训练与自监督学习 188
6.2 YOLOv8与YOLOv10创新技术点详解 193
6.2.1 多尺度特征融合与自适应池化 194
6.2.2 YOLOv8的轻量化与实时检测 203
6.3 YOLOv11:高效目标检测 208
6.3.1 YOLOv11的全新架构与自适应模块 209
6.3.2 在大规模数据集上的表现 216
6.3.3 YOLOv11的移动端推理优化 220
6.4 本章小结 225
6.5 思考题 225
第 7 章 目标检测改进方法与最新技术 227
7.1 RetinaNet简介 227
7.1.1 RetinaNet的网络架构 227
7.1.2 如何解决类别不平衡问题 234
7.2 改进的多维度注意力机制 239
7.2.1 多维度注意力机制的基本概念 239
7.2.2 多维注意力模块的实现 240
7.3 弱化的非极大值抑制算法 242
7.3.1 NMS的改进方法 243
7.3.2 弱化NMS的优势 245
7.4 RetinaNet的损失函数与训练策略 248
7.4.1 Focal Loss的原理与实现 248
7.4.2 焦点损失在密集目标检测中的应用 252
7.4.3 自适应学习率策略 255
7.5 基于LSTM的视频目标检测 257
7.5.1 LSTM的基本概念 257
7.5.2 LSTM网络与视频目标检测 258
7.5.3 记忆引导网络 261
7.5.4 交叉检测原理 263
7.5.5 交叉检测框架的应用 263
7.5.6 LSTM网络的训练与优化 267
7.6 对抗样本与模型健壮性 269
7.6.1 对抗样本的生成与防御 269
7.6.2 模型健壮性的提升方法 270
7.7 本章小结 273
7.8 思考题 273
第 8 章 DETR:Transformer在目标检测中的应用 275
8.1 DETR架构与Transformer的结合 275
8.1.1 DETR的主干网络 275
8.1.2 基于Transformer的YOLO框架改进 277
8.2 DETR的实现与训练 280
8.2.1 数据预处理与样本匹配 280
8.2.2 以YOLOv11为例:损失函数与优化 282
8.3 本章小结 285
8.4 思考题 286
第 3 部分 实战应用
第 9 章 基于YOLOv11架构的密集小目标检测实战 288
9.1 小目标检测的挑战与YOLOv11的优化策略 288
9.1.1 小目标检测的技术难点 288
9.1.2 YOLOv11的Anchor机制与特征融合 289
9.1.3 自适应损失函数与小目标优化 292
9.2 YOLOv11的训练流程与技术实现 295
9.2.1 数据预处理与小目标数据集构建 295
9.2.2 YOLOv11的训练流程与超参数调优 296
9.2.3 使用PyTorch训练YOLOv11模型 299
9.2.4 YOLOv11源码文件结构及各文件的作用 301
9.3 后处理与优化:精确检测小目标 304
9.3.1 YOLOv11的后处理流程 304
9.3.2 自定义NMS算法与小目标优化 305
9.4 YOLOv11在小目标检测中的实战案例 308
9.4.1 基于YOLOv11的交通目标与行人检测 308
9.4.2 模型评估与性能优化 309
9.4.3 实战项目中的调优与结果分析 312
9.5 本章小结 315
9.6 思考题 315
第 10 章 领域前沿:开放世界目标检测技术 316
10.1 开放世界目标检测OWOD的核心问题 316
10.1.1 闭集目标检测的局限性 317
10.1.2 OWOD的核心问题 317
10.2 YOLO-UniOW开放世界框架 319
10.2.1 YOLO-UniOW开放世界框架简介 319
10.2.2 自适应决策学习 321
10.2.3 通配符学习的原理 323
10.2.4 无须增量学习的动态适配机制 326
10.3 YOLO-UniOW的性能评估与应用实践 329
10.3.1 多数据集实验分析 329
10.3.2 实际应用场景中的表现 330
10.3.3 与现有框架的对比与未来发展 331
10.4 本章小结 333
10.5 思考题 333
