图书目录

目录

第1章数据挖掘概论

1.1什么是数据挖掘

1.1.1对数据挖掘的需求

1.1.2数据挖掘的起源与发展

1.1.3数据挖掘的概念

1.1.4数据挖掘的学科特性

1.1.5数据挖掘的未来

1.2数据挖掘过程

1.2.1KDD过程模型

1.2.2CRISPDM方法论

1.2.3SEMMA方法论

1.2.4ASUMDM方法论

1.3数据挖掘的目的与任务

1.3.1数据挖掘的目的

1.3.2数据挖掘的常见任务

1.4数据挖掘工具

1.4.1数据挖掘工具概述

1.4.2基于Python的数据挖掘

1.4.3基于R的数据挖掘

1.4.4使用RapidMiner Studio

1.4.5基于Spark的数据挖掘

第2章数据准备

2.1数据与数据集

2.1.1数据集概念

2.1.2测量尺度

2.1.3数据类型

2.1.4数据集类型

2.2数据质量

2.2.1数据质量概念

2.2.2数据缺陷

2.3数据探索

2.3.1数据探索的内容和方法

2.3.2数据集概况

2.3.3单变量探索

2.3.4多变量探索

2.3.5数据探索案例

2.4数据预处理

2.4.1数据清洗

2.4.2数据集成

2.4.3数据约简

2.4.4数据转换

第3章分类: 基本方法

3.1分类任务概述

3.1.1分类的基本概念

3.1.2分类任务的一般过程

3.1.3常用的分类技术

3.2决策树

3.2.1决策树概况

3.2.2决策树算法框架

3.2.3分裂属性的选择——信息增益准则

3.2.4信息增益率

3.2.5基尼指数

3.2.6终止条件

3.2.7决策树剪枝

3.2.8连续属性的处理

3.2.9决策树常用算法

3.2.10决策树示例: 高尔夫运动

3.2.11决策树应用案例: 德国信用评分

3.2.12决策树应用案例: 葡萄牙中学生成绩预测

3.3基于规则的分类

3.3.1规则集

3.3.2规则提取的直接方法

3.3.3由决策树提取规则集

3.3.4规则归纳应用示例: 鸢尾花分类

3.4朴素贝叶斯

3.4.1贝叶斯公式

3.4.2朴素贝叶斯公式

3.4.3朴素贝叶斯算例

3.4.4零条件概率处理——Laplace平滑

3.4.5连续属性的处理

3.4.6朴素贝叶斯分类器的特点

3.4.7朴素贝叶斯应用示例——高尔夫运动

3.4.8朴素贝叶斯应用案例——建筑能耗预测

3.5k近邻算法

3.5.1k近邻算法框架

3.5.2k值的选择

3.5.3决策机制

3.5.4距离与相似度

3.5.5k-NN使用示例——鸢尾花分类

3.5.6k-NN应用案例——汽车评估

3.6模型评估

3.6.1模型评估准则

3.6.2评估方法

3.7分类性能度量

3.7.1混淆矩阵

3.7.2常用性能指标

3.7.3P-R曲线

3.7.4ROC与AUC

3.7.5RapidMiner模型验证示例

第4章分类: 高级方法

4.1神经网络基础

4.1.1生物神经网络

4.1.2人工神经网络的发展

4.1.3神经元模型

4.1.4感知器

4.1.5多层前馈神经网络

4.1.6误差反向传播算法

4.2卷积神经网络

4.2.1卷积神经网络的一般结构

4.2.2卷积层与池化层

4.2.3典型的卷积神经网络

4.3神经网络优化

4.3.1网络结构优化

4.3.2参数优化

4.3.3网络正则化

4.4神经网络应用示例——鸢尾花分类

4.5深度神经网络应用示例——手写数字识别

4.6支持向量机

4.6.1支持向量机的基本思想

4.6.2对偶求解

4.6.3软间隔

4.6.4非线性分类

4.7支持向量机应用示例

4.7.1线性可分数据集

4.7.2非线性数据

4.8集成学习

4.8.1集成学习的基本思想

4.8.2Bagging

4.8.3随机森林

4.8.4Boosting

4.8.5Stacking

4.9集成学习应用示例

4.9.1Vote算子

4.9.2Bagging算子

4.9.3随机森林算子

4.9.4AdaBoost算子

4.9.5Stacking算子

4.10分类的几个问题

4.10.1类别不平衡问题

4.10.2多分类学习

4.10.3多标签分类

第5章回归分析

5.1一元线性回归

5.1.1一元线性回归模型

5.1.2参数估计

5.1.3回归方程的显著性检验

5.1.4拟合效果

5.1.5残差分析

5.1.6回归分析步骤

5.1.7应用举例

5.2多元线性回归

5.2.1多元线性回归模型

5.2.2标准化处理

5.2.3参数估计

5.2.4显著性检验

5.2.5拟合效果

5.2.6多元线性回归基本步骤

5.2.7应用实例

5.3自变量选择

5.3.1模型选择准则

5.3.2模型选择方法

5.3.3逐步回归实例

5.4多重共线性

5.4.1多重共线性及其后果

5.4.2多重共线性问题的诊断

5.4.3多重共线性的处理

5.5类别型自变量的处理

5.5.1虚拟变量法

5.5.2最优尺度回归

5.6类别型因变量的处理

5.6.1二分类Logistic回归

5.6.2无序多分类Logistic回归

5.6.3有序多分类Logistic回归

5.7非线性回归

5.7.1可线性化的非线性回归

5.7.2非线性回归模型

第6章聚类分析

6.1聚类分析概述

6.1.1聚类任务

6.1.2聚类分析的性质

6.1.3簇与聚类的不同理解

6.1.4聚类分析算法

6.2k均值算法

6.2.1算法思想

6.2.2算法步骤

6.2.3算法特点

6.2.4k均值算法的改进

6.2.5k均值算法应用示例

6.3基于密度的聚类

6.3.1DBSCAN算法基础

6.3.2DBSCAN算法步骤

6.3.3参数的选择

6.3.4DBSCAN的优点与不足

6.4层次聚类

6.4.1凝聚层次聚类

6.4.2分裂层次聚类

6.5基于神经网络的聚类

6.5.1自组织映射

6.5.2深度聚类

6.6聚类质量评估

6.6.1引言

6.6.2内部指标

6.6.3外部指标

6.6.4可视化方法

6.7聚类分析应用案例——客户细分

6.7.1数据探索

6.7.2数据清洗

6.7.3得到RFM数据

6.7.4聚类分析

第7章关联分析

7.1关联分析概述

7.2关联分析的基本概念

7.2.1事务数据的表示

7.2.2项集、支持度、频繁项集

7.2.3关联规则

7.2.4关联规则挖掘过程

7.3Apriori算法

7.3.1项集的格结构

7.3.2先验原理

7.3.3Apriori算法步骤

7.3.4关联规则生成

7.4FP-Growth算法

7.4.1FP-Growth算法的提出

7.4.2FP-Growth算法的特点

7.4.3FP树的构建

7.4.4生成频繁项集

7.5关联分析案例: 超市购物分析

第8章异常检测

8.1异常检测概述

8.1.1引言

8.1.2异常概念

8.1.3异常的类型

8.1.4异常发生的原因

8.1.5异常检测的目的

8.1.6异常检测技术

8.2基于统计的异常检测

8.2.1概述

8.2.23σ 原则

8.2.3Grubbs检验

8.2.4马氏距离

8.3基于邻近性的异常检测

8.3.1基于距离的异常检测

8.3.2基于密度的异常检测

8.3.3基于相对密度的异常检测

8.4基于聚类的异常检测

8.4.1概述

8.4.2K-Means异常检测

8.4.3FindCBLOF算法

8.5基于模型的异常检测

8.5.1概述

8.5.2基本流程

8.5.3单类支持向量机

8.5.4概率图模型

8.6基于深度学习的异常检测

8.6.1基于自编码器的异常检测

8.6.2基于GAN的异常检测

8.6.3基于LSTM的异常检测

8.7异常检测应用案例

8.7.1数据集

8.7.2数据预处理

8.7.3单变量异常检测

8.7.4基于距离的异常检测

8.7.5基于密度的异常检测

8.7.6基于LOF的异常检测

第9章文本挖掘

9.1文本挖掘概述

9.1.1文本挖掘的起源与发展

9.1.2文本挖掘任务

9.1.3文本挖掘过程

9.2文本预处理

9.2.1文本清洗

9.2.2文本规范化

9.2.3文本切分

9.2.4去停用词

9.2.5提取高频词

9.2.6词性标注

9.2.7句法分析

9.3文本表示

9.3.1文本离散表示

9.3.2文本分布式表示

9.3.3上下文相关的词向量

9.3.4大语言模型文本表示

9.4文本分类

9.4.1文本分类概述

9.4.2基于机器学习的文本分类

9.4.3基于深度神经网络的文本分类

9.4.4基于大语言模型的文本分类

9.5主题建模

9.5.1主题建模概述

9.5.2LSA模型

9.5.3PLSA模型

9.5.4LDA模型

9.5.5主题模型评估

9.5.6LDA应用示例

9.5.7神经主题模型

9.6文本情感分析

9.6.1情感分析概述

9.6.2基于词典的情感分析

9.6.3基于机器学习的情感分析

9.6.4基于深度学习的情感分析

9.6.5文本情绪分析

参考文献

附录RapidMiner使用入门

附录ARapidMiner概述

A.1.1简介

A.1.2RapidMiner界面介绍

附录BRapidMiner数据挖掘示例

B.2.1鸢尾花数据集

B.2.2导入数据集

B.2.3数据拆分

B.2.4模型训练

B.2.5模型测试与评估

B.2.6执行流程并查看结果

附录CRapidMiner功能概览