图书前言

前 言

  随着人工智能技术的飞速发展,其应用范围已从传统的图像识别、语音处理扩展 到更复杂的三维空间感知与任务执行等涉及具身智能技术的场景。在此过程中,具身 智能逐渐发展成为人工智能研究的热门方向之一。它强调智能体不再是被动的  “信息 处理器”,而应成为主动与环境交互的   “具身存在者”。这一范式的转变要求智能体能 够通过其 “身体” 感知环境、理解世界,并在此基础上做出动态决策与动作控制,从而 完成面向现实世界的复杂任务。而  “空间” 作为具身智能的载体,是连接感知、理解、 决策与动作的关键。因此,“具身空间智能”  应运而生,它不仅涉及对几何世界的准确 建模,更要求对语义信息的深度理解与融合,形成可学习、可解释、可执行的空间知 识体系。

  本书在这一背景下应运而生,旨在为读者系统梳理该领域的基础理论与关键技术, 构建支撑具身智能技术研发的知识框架。全书内容涵盖从空间感知到语义理解、从高 层规划到底层控制、从虚拟仿真到现实部署的全过程。具体而言,“几何空间”  部分深 入讲解三维坐标变换、相机模型与多视角几何;“语义空间”  部分引入神经网络基础、 视觉感知模型以及跨模态语义理解机制;“决策空间”  部分系统阐述强化学习、模仿学 习以及语言驱动的策略学习与智能体建模;“本体空间”  部分覆盖机器人运动学与动力 学基础、路径规划方法及精细化控制理论。通过将感知、理解、决策与执行相结合,为 读者呈现一条闭环式的具身空间智能学习路径。

  本书特别强调具身智能体系理论与实践的结合,专设 “世界模型” 章节,全面讲 解变分自编码器、生成对抗网络、自回归模型和扩散模型等主流生成方法,以及如何 构建具备时序预测、多模态交互与一致性特征的视觉模拟器。通过结合物理仿真器与 三维数据集,讲解世界模型在构建稳定的虚拟环境和内部认知模型方面发挥的重要作 用,并为具身训练提供关键支撑。此外,本书还系统讲述具身场景下的典型任务,如 具身导航、具身问答、动作规划与控制执行,并介绍通用具身智能体和具身基础模型 等最新成果,为读者打开通往具身人工智能前沿研究的大门。此外,本书对当前 “仿 真到现实” 迁移难题也进行了深入探讨。系统介绍了域随机化、对抗迁移、小样本学 习、元强化学习、人类反馈等前沿方法,提供了多种有效的知识迁移路径。还介绍了 利用增强现实技术、物理增强世界模型等手段桥接虚拟与现实,提升智能体的鲁棒性 与适应能力,推动具身智能在更广泛的范围实现真正的落地应用。

  本书内容覆盖人工智能、机器人学、计算机视觉、认知科学等多个交叉学科的关 键内容,具有理论性、系统性与前瞻性,不仅适合作为高等院校人工智能、自动化、电子信息、计算机等相关专业本科高年级学生和研究生教材,也可作为从事具身智能、三 维视觉、多模态交互、机器人系统开发等方面工作的科研人员、工程技术人员的参考 读物,使读者掌握具身空间智能的基本方法和技术框架,同时了解其在现实复杂场景 中的应用潜力和研究挑战。

  为便于读者系统学习与深入理解核心内容,本书配套提供了丰富的 教学资源。读者可通过扫描侧边二维码来获取如教学大纲、教学课件及 智慧慕课等的相关教学资源。这些教学资源既可以辅助课堂教学,也能 够支撑自主学习与拓展研究,帮助读者逐步深入地学习从基础概念到前

沿方法的相关知识,构建对具身空间智能的全面认知与实践能力。 希望本书的出版能为  “具身空间智能” 这一新兴方向的发展提供一

教学资源

部具有体系性和实用价值的学术著作。但由于该领域本身交叉性强、发展迅速,作者 的学识与视野亦有局限,书中难免存在疏漏、不当或浅显之处。恳请广大读者,尤其 是专家学者、教学一线的同仁和关心本领域的研究者批评指正,不吝赐教。我们也期 盼能与各界同仁一起,共同推动具身空间智能的教育普及与学术发展。

作 者

2025 年 6 月于杭州