





定价:44.5元
印次:1-1
ISBN:9787302634256
出版日期:2023.10.01
印刷日期:2023.10.30
图书责编:郭赛
图书分类:教材
近年来,数据挖掘(Data Mining)引起了产业界的极大关注,主要原因是生产制造等环节中存在海 量有潜在价值的数据,而各行各业都迫切需要将这些数据转换成有用的信息和知识。这些信息和知识可 以广泛用于各种领域,包括商务管理、生产控制、市场分析、工程设计等,帮助企业创造更高的利润和 占据新的制高点。 本书内容新颖,可操作性强,图文并茂,简明易懂,可作为高等学校数据科学与大数据、软件工程 等计算机相关专业和信息管理类专业“大数据开发技术”课程的教材,也可作为大数据技术培训班的教 材,还适合大数据技术研发人员和广大计算机爱好者自学使用。
蔡毅,男,硕士生导师,现任广东工业大学网络信息与现代教育技术中心副主任,博士,网络规划师,硕士研究生导师。长期从事计算机网络技术、网络控制技术和控制科学与控制工程领域的教学与科研工作。主要研究方向有网络与信息化控制、最优化控制、RFID技术、计算机网络等。
前言 本书从算法的角度介绍数据挖掘使用的技术和相关的应用。第1章介绍数据挖掘的基本概念。第2章介绍数据和数据集的基本概念,并简单介绍大数据。第3章是数据挖掘中重要的第一步——数据的预处理;本章通过代码和实例展示及说明如何对结构化数据、非结构化文本数据进行预处理。第4章介绍分类任务的基本算法,包括常用的KNN、SVM、随机森林、朴素贝叶斯等,并附有相应的代码;同时,介绍特征选择的方法和特征权重的概念,及其在分类算法中的作用;此外,本章还对类别不平衡、模糊分类、多分类等情况进行详细的介绍,并给出相应的实战演练。近年来,深度学习模型在很多数据挖掘任务中表现突出。第5章介绍基于深度学习的分类算法,如常用的CNN、RNN、LSTM算法在结构化数据、图像、文本数据上的分类。第6章介绍层次聚类、基于密度的聚类、主题模型等主流聚类算法,及其在结构化数据和文本数据上的应用。第7章介绍个性化建模的方法及基于不同方式的推荐算法,如基于内容、协同过滤、主题模型、深度学习、混合推荐等算法。 本书的每一章都配有相关的代码、实例以及练习题,希望能够帮助读者更深入地理解和运用数据挖掘算法。 编者 2023年6月
第1章 绪论 1
1.1 数据挖掘概述 1
1.2 数据挖掘的定义 1
1.2.1 数据挖掘的一般步骤 2
1.2.2 数据挖掘任务 2
1.3 数据挖掘的主要问题 3
1.3.1 数据挖掘算法的有效性和可扩展性 3
1.3.2 处理噪声和不完全数据 3
1.3.3 高维度数据 3
1.3.4 关系数据库和复杂数据类型的处理 4
1.3.5 异种数据库和全球信息系统挖掘信息 4
1.4 数据挖掘的应用 4
1.4.1 推荐系统 4
1.4.2 互联网风险控制 5
1.5 小结 5
1.6 参考文献 5
第2章 数据及数据集基本分析 6
2.1 数据对象与属性 6
2.1.1 属性的定义 7
2.1.2 定性属性 7
2.1.3 定量属性 8
2.2 数据与元数据 9
2.2.1 传统的元数据 9
2.2.2 元数据的类型 10
2.2.3 元数据的模式 10
2.3 结构化、非结构化和半结构化数据 11
2.3.1 结构化数据 11
2.3.2 非结构化数据 12
2.3.3 半结构化数据 13
2.4 数据集基本分析技术 14
2.4.1 频率和众数 15
2.4.2 百分位数 15
2.4.3 均值和中位数 16
2.4.4 极差和方差 16
2.4.5 多元数据统计 17
2.5 结构化数据集基本分析技术 17
2.5.1 鸢尾花数据集介绍 17 ... 查看详情