前 言
机器学习实际上已经存在了几十年,或者也可以认为存在了几个世纪。追溯到17世纪,贝叶斯、拉普拉斯关于最小二乘法的推导和马尔可夫链,这些构成了机器学习广泛使用的工具和基础。从1950年艾伦·图灵提议搭建一个学习机器开始,到2000年年初深度学习的实际应用以及最近的进展,比如2012年的AlexNet,机器学习有了很大的发展。
scikit-learn项目最早由数据科学家 David Cournapeau在2007年发起,需要NumPy和SciPy等其他包的支持,它是Python语言中专门针对机器学习应用而发展起来的一款开源框架。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。它专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构并使之不断改善自身的性能。它是人工智能的核心,即使计算机具有智能的根本途径。
本书针对机器学习这个领域,描述了多种学习模型、策略、算法、理论以及应用,基于Python3使用scikit-learn工具包演示算法解决实际问题的过程。对机器学习感兴趣的读者可通过本书快速入门,快速胜任机器学习岗位,成为人工智能时代的人才。
读者需要了解的重要信息
本书作为机器学习专业图书,介绍机器学习的基本概念、算法流程、模型构建、数据训练、模型评估与调优、必备工具和实现方法,全程以真实案例驱动,案例采用Python3实现。本书涵盖数据获得、算法模型、案例代码实现和结果展示的全过程,以机器学习的经典算法为轴线:算法分析→数据获取→模型构建→推断→算法评估。本书案例具有代表性,结合了理论与实践,并能明确机器学习的目标及完成效果。
本书内容
本书共分13章,系统讲解机器学习的典型算法,内容包括机器学习概述、数据特征提取、scikit-learn估计器分类、朴素贝叶斯分类、线性回归、k近邻算法分类和回归、从简单线性回归到多元线性回归、从线性回归到逻辑回归、非线性分类和决策树回归、从决策树到随机森林、从感知机到支持向量机、从感知机到人工神经网络、主成分分析降维。
本书的例子都是在Python3集成开发环境Anaconda3中经过实际调试通过的典型案例,同时本书配备了案例的源码和数据集供读者参考。
配套资源下载
本书配套的案例源码、PPT课件、数据集、开发环境和答疑服务,需要使用微信扫描下边的二维码下载,可按扫描后的页面提示,把链接转发到自己的邮箱中下载。如果有疑问,请联系booksaga@163.com,邮件主题写“scikit-learn机器学习实战”。
本书读者
本书适合大数据分析与挖掘、机器学习与人工智能技术的初学者、研究人员及从业人员,也适合作为高等院校和培训机构大数据、机器学习与人工智能相关专业的师生教学参考。
致 谢
本书完成之际,感谢合作者与清华大学出版社各位老师的支持。作者夜以继日用了近一年的时间写作,并不断修正错误和完善知识结构。由于作者水平有限,书中有纰漏之处还请读者不吝赐教。本书写作过程中参考的图书与网络资源都在参考文献中给出了出处。
邓立国
2022年1月
