清华大学出版社-图书前言

首页 > 图书中心 > 机器学习原理与实践（Python版）

前言

清晨你刚睁开惺忪的睡眼，公寓的智能管家Jarvis便通过心率、体温等信息监测到你醒了。窗帘缓缓拉开，耳边传来舒缓的音乐，高大白胖的机器人Baymax为你送来了清晨的第一杯咖啡。看着投影在空气中的天气预报，你扬起了嘴角。今天又是阳光明媚的一天！突然场景一转，万籁俱寂，眼前出现了无数以人为电池的机械虫茧。背后脚步声响起，你转头看见一个酷似施瓦辛格的T800型机器人正拿枪对着你。多年以后，当你在新闻里看到机器人三大定律时，准会想起第一次翻开这本书看到“机器学习”这个词的那个遥远的下午……

上面这个荒诞不经的“梦”，糅合了多个有关人工智能的经典电影场景。人们一方面畅想着人工智能带来的便捷与美好；另一方面又时刻警惕着技术进步可能带来的问题与危害。2016年3月，由Google旗下DeepMind公司开发的围棋机器人AlphaGo以4∶1战胜围棋世界冠军李世石。其后，AlphaGo化名“Master”在互联网上对战中日韩围棋高手六十余局无一败绩。次年5月，AlphaGo以3∶0完胜当时世界排名第一的围棋冠军柯洁。此后AlphaGo便不再参加围棋比赛，退隐江湖了。一时间机器人威胁论甚嚣尘上，仿佛电影中具备人类等级智能的机器人已经触手可及。事实上，这种级别的智能体离我们还有相当长的一段距离。美国作家霍华德·洛夫克拉夫特（Howard Lovecraft）有句名言： The oldest and strongest emotion of mankind is fear, and the oldest and strongest kind of fear is fear of the unknown，简单地说就是恐惧源于未知。这种事情在人类历史上屡见不鲜，探索未知、了解未知才能克服它带来的恐惧。15世纪的人们仍然认为世界是方的，海洋的尽头是无尽的深渊。正是无数航海家对海洋的探索消弭了人类的恐惧，才会有后来大航海时代带来的地理大发现。同样地，与其人云亦云地担忧人工智能可能带来的危害，不如去学习了解它，寻找规避风险的方法才更实际。毕竟工具无所谓好坏，关键在于用它的人。

机器学习是人工智能非常重要的分支，其发展历程则需要追溯到20世纪。早期的人工智能研究，主要集中在对机器推理能力的研究。这一阶段比较著名的成果是人工智能符号主义学派创始人艾伦·纽厄尔（Allen Newell）和他的老师赫伯特·西蒙（Herbert Simon）一起创建的“逻辑理论家”程序，它在1952年证明了《数学原理》中的38条定理。纽厄尔和西蒙也因在人工智能和认知心理学领域的基础性贡献而共同获得了1975年度的图灵奖。后来人们发现，仅仅具备推理能力是不够的，人工智能需要具备知识。于是人们将知识总结出来教给机器，让计算机基于专家知识进行自动推理从而模仿专家解决特定领域的问题。基于这个理念，20世纪60年代诞生了第一个成功的专家系统DENDRAL，它可以根据质谱仪的数据推断物质分子结构。专家系统显而易见的问题是，需要大量特定领域的专家提取总结知识。然而对每个特定的领域针对性地构造专家系统是不现实的，也正是这个问题使其发展进入了瓶颈。为了解决这个问题，人们尝试让机器自己学习总结知识。研究人员提出了各种各样的学习方法。不过从20世纪80年代以来，研究和应用最广泛的是“从样例中学习” 的方法。其最大的特点是，用算法直接从样本中学习总结数据的相关知识，而不显示地编程教给计算机这些知识。本书介绍的主要内容就属于这一范畴。

时至今日，机器学习已经发展成为一个非常庞大的学科领域。近些年非常火热的深度学习（Deep Learning）就是机器学习的子分支，其在自然语言处理、计算机视觉等领域有着非常出色的表现。其他像强化学习（Reinforcement Learning）、迁移学习（Transfer Learning）等分支在自动驾驶、图像处理等领域也有着十分广泛的应用前景。

万丈高楼平地起，勿在浮沙筑高台。尽管机器学习领域的新发展已经到了令人目不暇接的地步，但所有的这些新技术或者新分支无不是在经典方法基础之上建立的。或者说，先进方法设计中所蕴含的思想、涉及的概念其实都源自于经典理论。例如，深度学习中必然会遇到的反向传播、梯度下降、正则化、Softmax等内容其实早就存在于经典机器学习方法的教科书里了。因此，能否牢固掌握并深刻理解经典理论或方法，对后续更进一步的学习、研究与运用无疑是至关重要的。

本书全面、系统地介绍了机器学习领域中的经典方法，并兼顾算法原理与实践运用。本书具体内容涉及回归分析（线性回归、多项式回归、非线性回归、岭回归、LASSO、弹性网络以及RANSAC等）、分类（感知机、逻辑回归、朴素贝叶斯、决策树、支持向量机、人工神经网络等）、聚类（k均值、EM算法、密度聚类、层次聚类以及谱聚类等）、集成学习（随机森林、AdaBoost、梯度提升等）、蒙特卡洛采样（拒绝采样、自适应拒绝采样、重要性采样、吉布斯采样和马尔科夫链蒙特卡洛等）、降维与流形学习（SVD、PCA和MDS等），以及概率图模型（例如，贝叶斯网络和隐马尔科夫模型）等话题。

本书各章节的内容，基于全新设计的学习路线图编写，层层递进又紧密联系；既适合自学，又有利于读者深化理解原理细节，从而建立完整而系统的全局观。

纸上得来终觉浅，绝知此事要躬行。本书力求在清晰阐述算法原理的同时，还基于机器学习经典框架scikitlearn提供了算法的应用实例，便于读者快速上手。特别地，书中的示例代码采用机器学习与数据科学领域最广泛使用的Python语言编写。当然，我们并不要求读者已经具备Python编程方面的背景。即使从未使用过Python语言的人依然可以阅读本书。

读者还可以访问编者在CSDN上的技术博客（白马负金羁），该博客主要关注机器学习、数据挖掘、深度学习及数据科学等话题，其中提供的很多技术文章可作为本书的补充材料，供广大读者在自学时参考。读者在阅读本书时遇到的问题以及对本书的意见或建议，可以在该博客上通过留言的方式同编者进行交流。

自知论道须思量，几度无眠一文章。由于时间和能力有限，书中疏漏在所难免，真诚地希望各位读者和专家不吝批评、指正。

编者

2021年1月