目录
第1章绪论
1.1概况
1.2数据分析
1.2.1流程
1.2.2算法分类
1.2.3基本原则
1.3算法基础
1.4本章小结
习题
第2章特征工程
2.1问题导入
2.2特征提取
2.3特征探索性分析
2.3.1单变量分析
2.3.2多变量分析
2.4特征预处理
2.4.1缺失值处理
2.4.2异常值处理
2.4.3特征变换
2.5特征选择
2.5.1过滤法
2.5.2封装法
2.5.3嵌入法
2.6案例: 工业设备信号特征工程
2.7本章小结
习题
第3章多类型数据表征
3.1问题导入
3.2时序数据表征
3.2.1频域特征
3.2.2时频域特征
3.3文本数据表征
3.3.1词袋模型
3.3.2TFIDF特征
3.3.3词向量嵌入
3.4图像数据表征
3.4.1图像处理基础
3.4.2SIFT
3.4.3HOG
3.4.4深度特征表示
3.4.5多模态特征融合
3.5案例: 农作物病虫害图像表征
3.6本章小结
习题
第4章数据抽样
4.1问题导入
4.2概率抽样
4.3非均衡抽样
4.3.1样本分布不均衡问题
4.3.2过采样
4.3.3欠采样
4.4数据流抽样
4.4.1数据流抽样问题
4.4.2蓄水池抽样
4.5蒙特卡洛抽样
4.5.1直接采样
4.5.2接受拒绝采样
4.5.3重要性采样
4.6案例: 基于SMOTE的信用卡交易欺诈数据采样
4.7本章小结
习题
第5章图计算
5.1问题导入
5.2图网络
5.2.1图网络表示
5.2.2网络结构分类
5.2.3网络描述性统计
5.3图基础算法
5.3.1图遍历
5.3.2图分割
5.4社区发现
5.4.1模块度
5.4.2GN算法
5.4.3谱方法
5.5GraphScope简介
5.6案例: 基于谱聚类的图像分割
5.7本章小结
习题
第6章随机优化算法
6.1问题导入
6.2梯度下降算法
6.3随机梯度下降算法
6.4梯度加速方法
6.4.1动量法
6.4.2Nesterov梯度加速
6.4.3自适学习率加速方法
6.5方差缩减
6.5.1方差缩减技术
6.5.2方差缩减算法
6.6案例: 逻辑回归模型优化算法
6.7本章小结
习题
第7章相似性度量
7.1问题导入
7.2相关系数
7.2.1皮尔逊相关系数
7.2.2余弦相似度
7.2.3Jaccard相似系数
7.3距离度量
7.3.1欧氏空间的距离度量
7.3.2流形空间的距离度量
7.3.3时间序列的距离度量
7.4概率散度
7.4.1f散度
7.4.2积分概率度量
7.5案例: 金融时间序列数据分析
7.6本章小结
习题
第8章关联性分析
8.1问题导入
8.2非线性相关性分析
8.3典型关联分析
8.4关联规则
8.4.1关联规则描述
8.4.2关联规则挖掘
8.4.3数值型关联规则挖掘
8.5因果分析
8.5.1结构因果模型与图模型
8.5.2因果效应评估
8.6案例: 购物车数据挖掘
8.7本章小结
习题
参考文献