





作者:[美]本杰明·约翰斯顿 等著 唐盛 译
定价:129元
印次:1-1
ISBN:9787302557685
出版日期:2020.07.01
印刷日期:2020.07.17
图书责编:贾小红
图书分类:零售
本书详细阐述了与无监督机器学习开发相关的基本解决方案,主要包括聚类、分层聚类、邻域聚类方法和DBSCAN、降维和PCA、自动编码器、t分布随机邻域嵌入算法、主题建模、购物篮分析、热点分析等内容。此外,本书还提供了相应的示例、代码,以帮助读者进一步理解相关方案的实现过程。 本书适合作为高等院校计算机及相关专业的教材和教学参考书,也可作为相关开发人员的自学教材和参考手册。
Eugene Y. Chen是一名机器学习的狂热爱好者,也是Python的使用倡导者。无监督学习是其工作和爱好的一座桥梁。他之前的工作是采用Kernel Density Estimation对不同数据源进行整合预测,并在KDD研讨会上发布,用于基于时间序列的挖掘和学习。另外,他还对一些开源项目有所贡献,例如scikit-learn。Xavier Holt是一家初创公司的联合创始人、数据科学家和学术研究人员。其职业经历包括大学程序设计教师、NLP研究者、语音研发。Chris Kruger是一名实践型数据科学家和人工智能研究员。他管理多个行业的应用机器学习项目。他的主要关注点是在每个项目中实现商业实用性和学术严谨性。Chris Kruger目前正在从事计算机视觉领域方面的研究。
前 言 本部分内容 本部分将简要介绍作者、本书讨论的主题、入门所需的技能,以及完成本书包含的所有活动和练习所需的硬件和软件要求等。 关于本书 在没有标签数据的情况下,无监督学习是一种有效且实用的解决方案。 本书将指导读者完成使用Python进行无监督学习的最佳实践,以结合使用无监督学习技术和Python库从非结构化数据中提取有意义的信息。本书首先说明了基本聚类如何在数据集中查找相似的数据点。精通k均值算法及其操作原理后,读者将了解什么是降维(Dimensionality Reduction)以及在哪里应用。随着学习的深入,读者还将掌握各种神经网络技术以及了解如何通过它们改善自己的模型。在研究无监督学习的应用程序时,我们还将学习如何挖掘Twitter上流行的主题。开发人员可以通过进行各种有趣的活动来挑战自己(例如,进行购物篮分析以确定不同产品之间的关系),从而完成本书的学习。 学习完本书,读者将具备使用Python自信地构建自己的模型所需的技能。 关于作者 Benjamin Johnston是全球领先的数据驱动医疗技术公司之一的高级数据科学家,并参与了从问题定义到解决方案的研究与开发,再到最终部署的整个产品开发路径的创新数字解决方案的开发。他目前正在攻读机器学习的博士学位,专门研究图像处理和深度卷积神经网络。他在医疗设备设计和开发方面拥有十多年的经验,担任过各种技术职务,并拥有澳大利亚悉尼大学工程和医学科学的一等荣誉学士学位。 Aaron Jones是美国最大零售商之一的全职高级数据科学家,也是统计顾问。在零售、媒体和环境科学领域工作期间,他建立了预测模型...
第1章 聚类 1
1.1 简介 1
1.2 无监督学习与有监督学习 1
1.3 聚类的识别 3
1.3.1 识别聚类 3
1.3.2 二维数据 4
1.3.3 练习1:识别数据中的聚类 5
1.4 关于k均值聚类 8
1.4.1 无数学k均值演练 8
1.4.2 对于k均值聚类的深度演练 9
1.4.3 替代距离度量—曼哈顿距离 10
1.4.4 更深的维度 10
1.4.5 练习2:用Python计算欧几里得距离 11
1.4.6 练习3:以距离的概念形成聚类 12
1.4.7 练习4:从头开始实现k均值 13
1.4.8 练习5:通过优化实现k均值 15
1.4.9 聚类性能:轮廓分数 18
1.4.10 练习6:计算轮廓分数 19
1.4.11 活动1:实现k均值聚类 21
1.5 小结 22
第2章 分层聚类 23
2.1 介绍 23
2.2 聚类刷新 23
2.3 分层的组织结构 24
2.4 分层聚类简介 25
2.4.1 执行分层聚类的步骤 26
2.4.2 分层聚类的演练示例 27
2.4.3 练习7:建立分层结构 30
2.5 链接 33
2.5.1 链接概述 33
2.5.2 活动2:应用链接标准 34
2.6 凝聚分层聚类与分裂分层聚类 36
2.6.1 练习8:使用scikit-learn实现凝聚分层聚类 37
2.6.2 活动3:比较k均值和分层聚类 39
2.7 关于k均值与分层聚类 41
2.8... 查看详情
本书将指导读者完成使用Python进行无监督学习的最佳实践,以结合使用无监督学习技术和Python库从非结构化数据中提取有意义的信息。本书首先说明了基本聚类如何在数据集中查找相似的数据点。精通k均值算法及其操作原理后,读者将了解什么是降维(Dimensionality Reduction)以及在哪里应用。随着学习的深入,读者还将掌握各种神经网络技术以及了解如何通过它们改善自己的模型。在研究无监督学习的应用程序时,我们还将学习如何挖掘Twitter上流行的主题。开发人员可以通过进行各种有趣的活动来挑战自己(例如,进行购物篮分析以确定不同产品之间的关系),从而完成本书的学习。
学习完本书,读者将具备使用Python自信地构建自己的模型所需的技能。