图书目录

目   录

第1章  具身空间智能概述  1

  1.1  具身空间智能的特征属性  2

  1.2  具身空间智能的发展历程、应用前景和挑战  4

         1.2.1  发展历程  4

         1.2.2  应用前景  6

         1.2.3  挑战  6

  1.3  核心研究内容  7

         1.3.1  四类交互空间  7

         1.3.2  从物理世界到仿真模拟  9

         1.3.3  仿真到现实  10

         1.3.4  具身场景和任务  10

  1.4  习题  13

  参考文献  14

第2章  几何空间  15

  2.1  3D几何基础  15

         2.1.1  坐标系与坐标变换  15

         2.1.2  旋转的表示  17

         2.1.3  齐次变换  21

  2.2  相机模型与投影  24

         2.2.1  针孔相机模型  24

         2.2.2  透视投影  28

         2.2.3  相机标定  30

  2.3  多视角几何重建  34

         2.3.1  三角测量  35

         2.3.2  相机校正  37

         2.3.3  极线几何  41

         2.3.4  运动恢复结构  47

  2.4  习题  52

第3章  语义空间  55

  3.1  基于深度学习的语义感知架构  55

         3.1.1  神经元与多层感知机  55

         3.1.2  卷积神经网络  58

         3.1.3  循环神经网络  64

         3.1.4  Transformer  68

         3.1.5  图神经网络  74

  3.2  视觉感知模型  77

         3.2.1  目标检测  78

         3.2.2  图像分割  80

         3.2.3  深度估计  84

         3.2.4  人体姿态关键点估计  85

         3.2.5  多任务联合的统一感知模型  90

  3.3  跨模态学习和语义理解  91

         3.3.1  跨模态预训练与对齐  92

         3.3.2  跨模态迁移学习  97

         3.3.3  常见的跨模态任务  100

  3.4  具身空间语义感知  102

         3.4.1  物体材质感知  103

         3.4.2  人体躯干和手部三维网格建模与姿态估计  104

         3.4.3  物体姿态估计  111

         3.4.4  手物姿态联合估计  116

         3.4.5  抓取位姿估计  121

         3.4.6  视觉可供性估计和功能性理解  130

  3.5  习题  137

  参考文献  138

第4章  决策空间  155

  4.1  决策过程  155

         4.1.1  马尔可夫决策过程  156

         4.1.2  部分可观测马尔可夫决策过程  161

         4.1.3  马尔可夫决策过程的挑战  163

  4.2  模仿学习  164

         4.2.1  行为克隆  164

         4.2.2  直接策略学习  166

         4.2.3  逆强化学习  167

         4.2.4  生成对抗模仿学习  168

  4.3  强化学习  170

         4.3.1  基于策略的强化学习  170

         4.3.2  基于价值的强化学习  177

         4.3.3  基于模型的强化学习  180

  4.4  基于语言的学习与决策  182

         4.4.1  大语言模型发展历程  182

         4.4.2  基于人类反馈的强化学习  183

         4.4.3  直接偏好优化  184

         4.4.4  指令微调  186

         4.4.5  提示学习  187

  4.5  大模型智能体  190

         4.5.1  自然语言交互  190

         4.5.2  从语言模态到多模态  192

         4.5.3  知识与记忆  193

         4.5.4  推理与规划  197

         4.5.5  动作与决策  200

  4.6  习题  201

  参考文献  201

第5章  本体空间  203

  5.1  运动学  203

         5.1.1  正运动学  203

         5.1.2  逆运动学  207

  5.2  动力学  211

         5.2.1  从一维质点系统看比例–积分–微分控制  211

         5.2.2  机械系统动力学  212

         5.2.3  动力学的一般形式  214

  5.3  路径规划  216

         5.3.1  路径搜索  216

         5.3.2  路径优化  222

  5.4  控制理论  223

         5.4.1  最优控制  223

         5.4.2  可控性  229

         5.4.3  稳定性  230

  5.5  抓取和操控  232

         5.5.1  操控类型  233

         5.5.2  接触运动学  234

         5.5.3  接触力与摩擦  236

         5.5.4  广义操作  239

  5.6  习题  240

第6章  世界模型  242

  6.1  世界模型介绍  242

  6.2  生成模型概述  244

         6.2.1  变分自编码器  244

         6.2.2  生成对抗网络  246

         6.2.3  自回归生成模型  250

         6.2.4  扩散模型  251

         6.2.5  可控生成  255

  6.3  可控视觉模拟器  256

         6.3.1  长时预测  257

         6.3.2  多模态  257

         6.3.3  互动性  258

         6.3.4  一致性  259

         6.3.5  多样化环境适配  260

  6.4  物理模拟器与具身环境  261

         6.4.1  具身虚拟环境的要素  261

         6.4.2  三维场景数据集  263

         6.4.3  仿真平台与物理模拟器  265

  6.5  具身场景生成  271

         6.5.1  三维数据表示  271

         6.5.2  三维物体重建生成与编辑  278

         6.5.3  人体运动生成  282

         6.5.4  三维场景生成  286

  6.6  大语言模型、智能体模型与世界模型的结合  290

         6.6.1  基于大语言模型的后端设计  291

         6.6.2  增强大语言模型的后端能力  292

  6.7  习题  294

  参考文献  295

第7章  具身场景任务与方法  302

  7.1  具身导航  303

         7.1.1  具身导航任务  303

         7.1.2  具身导航方法  305

  7.2  具身问答  311

         7.2.1  从3D场景问答到具身问答  311

         7.2.2  具身问答任务与方法  312

         7.2.3  具身问答与具身导航的联系  313

  7.3  具身任务规划  313

         7.3.1  具身任务规划任务  313

         7.3.2  具身任务规划方法  314

  7.4  底层动作规划与操控  317

         7.4.1  底层动作规划与操控任务  317

         7.4.2  底层动作规划与操控方法  317

  7.5  通用具身智能体与具身基础模型  319

         7.5.1  通用具身智能体  320

         7.5.2  具身基础模型  320

  7.6  具身任务数据集与测试基准  325

         7.6.1  互联网动作视频数据集  325

         7.6.2  具身导航数据集  326

         7.6.3  具身问答数据集  327

         7.6.4  具身任务规划基准  327

         7.6.5  本体操作数据集  328

  7.7  习题  329

  参考文献  331

第8章  仿真到现实  336

  8.1  仿真到现实问题  336

  8.2  仿真环境优化  338

         8.2.1  域随机化  338

         8.2.2  构建世界模型  340

  8.3  域迁移  342

         8.3.1  对抗学习  342

         8.3.2  基于小样本的元强化学习  345

  8.4  外部知识引导  353

  8.5  人为干预和修正  355

         8.5.1  人类经验反馈  355

         8.5.2  增强现实技术  358

  8.6  习题  360

  参考文献  361

习题答案  365