绪论 ????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????? 1
第一板块 综述??????????????????????????????????????????????????????5
第 1章 万物皆数 ???????????????????????????????????????????????????????????????????????????????????????????????????????????? 7
1.1 万物皆数:从矩阵说起 8
1.2 数据分类:定量 ( 连续、离散 ) 、定性 ( 定类、定序 ) 14
1.3 机器学习:四大类算法 17
1.4 特征工程:提取、转换、构建数据 21
第2板块 数据处理??????????????????????????????????????????????????????23
第 2章 缺失值 ?????????????????????????????????????????????????????????????????????????????????????????????????????????????? 25
2.1 是不是缺了几个数? 26
2.2 可视化缺失值位置 30
2.3 处理缺失值:删除 34
2.4 单变量插补 37
2.5 k 近邻插补 39
2.6 多变量插补 41
第 3章 离群值 ?????????????????????????????????????????????????????????????????????????????????????????????????????????????? 43
3.1 这几个数有点不合群? 44
3.2 直方图:单一特征分布 46
3.3 散点图:成对特征分布 49
3.4 QQ 图:分位数 - 分位数 51
3.5 箱型图:上界、下界之外样本 54
3.6 Z 分数:样本数据标准化 55
3.7 马氏距离和其他方法 57
第4章 数据转换 63
4.1 数据转换 64
4.2 中心化:去均值 65
4.3 标准化:Z 分数 69
4.4 归一化:取值在 0 和 1 之间 71
4.5 广义幂转换 72
4.6 经验累积分布函数 74
4.7 插值 79
第 5章 数据距离 91
5.1 怎么又聊距离? 92
5.2 欧氏距离:最常见的距离 94
5.3 标准化欧氏距离:考虑标准差 96
5.4 马氏距离:考虑标准差和相关性 99
5.5 城市街区距离:L1 范数 101
5.6 切比雪夫距离:L ∞范数 102
5.7 闵氏距离:Lp 范数 103
5.8 距离与亲近度 104
5.9 成对距离、成对亲近度 108
5.10 协方差矩阵,为什么无处不在? 110
第3板块 时间数据??????????????????????????????????????????????????????127
第6 时间数据 129
6.1 时间序列数据 130
6.2 处理时间序列缺失值 133
6.3 从时间数据中发现趋势 135
6.4 时间序列分解 138
6.5 时间数据讲故事 143
第 7章 移动窗口 157
7.1 移动窗口 158
7.2 移动波动率 162
7.3 相关性 165
7.4 回归系数 166
7.5 指数加权移动平均 167
7.6 EWMA 波动率 169
第 8章 随机过程入门 ??????????????????????????????????????????????????????????????????????????????????????????????? 175
8.1 布朗运动:来自花粉颗粒无规则运动 176
8.2 无漂移布朗运动 180
8.3 漂移布朗运动:确定 + 随机 182
8.4 具有一定相关性的布朗运动 185
8.5 几何布朗运动 188
8.6 股价模拟 190
8.7 相关股价模拟 193
第 9章 高斯过程 ??????????????????????????????????????????????????????????????????????????????????????????????????????? 197
9.1 高斯过程原理 198
9.2 协方差矩阵 202
9.3 分块协方差矩阵 206
9.4 后验 206
9.5 噪声 210
9.6 核函数 211
第4板块 图论基础??????????????????????????????????????????????????????223
第 10章 图论入门 225
10.1 什么是图? 226
10.2 图和几何 233
10.3 图和矩阵 234
10.4 图和机器学习 236
10.5 NetworkX 241
第 11章 无向图 ???????????????????????????????????????????????????????????????????????????????????????????????????????? 243
11.1 无向图:边没有方向 244
11.2 自环:节点到自身的边 248
11.3 同构:具有等价关系的图 250
11.4 多图:同一对节点存在不止一条边 253
11.5 子图:图的一部分 254
11.6 有权图:边自带权重 256
第 12章 有向图 ???????????????????????????????????????????????????????????????????????????????????????????????????????? 261
12.1 有向图:边有方向 ??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????? 262
12.2 出度、入度 265
12.3 邻居:上家、下家 266
12.4 有向多图:平行边 267
12.5 三元组:三个节点的 16 种关系 269
12.6 NetworkX 创建图 273
第 13章 图的可视化 ???????????????????????????????????????????????????????????????????????????????????????????????? 281
13.1 节点位置 282
13.2 节点装饰 286
13.3 边装饰 289
13.4 分别绘制节点和边 291
第5板块 图的分析??????????????????????????????????????????????????????299
第 14章 常见图 ??????????????????????????????????????????????????????????????????????????????????????????????????????? 301
14.1 常见图类型 302
14.2 完全图 303
14.3 二分图 307
14.4 正则图 310
14.5 树 311
14.6 柏拉图图 315
第 15章 从路径说起 ???????????????????????????????????????????????????????????????????????????????????????????????? 321
15.1 通道、迹、路径、回路、环 322
15.2 常见路径问题 333
15.3 最短路径问题 334
15.4 欧拉路径 339
15.5 哈密尔顿路径 339
15.6 推销员问题 340
第 16章 连通性 ??????????????????????????????????????????????????????????????????????????????????????????????????????? 343
16.1 连通性 344
16.2 连通分量 349
16.3 强连通、弱连通:有向图 352
16.4 桥 353
第 17章 图的分析 ???????????????????????????????????????????????????????????????????????????????????????????????????? 357
17.1 度分析 358
17.2 距离度量 363
17.3 中心性 372
17.4 图的社区 380
第6板块 图与矩阵 ?????????????????????????????????????????????????????? 383
第 18章 从图到矩阵 ??????????????????????????????????????????????????????????????????????????????????????????????? 385
18.1 无向图到邻接矩阵 386
18.2 有向图到邻接矩阵 397
18.3 传球问题 399
18.4 邻接矩阵的矩阵乘法 406
18.5 特征向量中心性 409
第 19章 成对度量矩阵 ??????????????????????????????????????????????????????????????????????????????????????????? 413
19.1 成对距离矩阵 414
19.2 亲近度矩阵:高斯核函数 420
19.3 相关性系数矩阵 424
第 20章 转移矩阵 ??????????????????????????????????????????????????????????????????????????????????????????????????? 429
20.1 再看邻接矩阵 430
20.2 转移矩阵:可能性 435
20.3 有向图 436
20.4 马尔可夫链 442
第 21章 其他矩阵 ??????????????????????????????????????????????????????????????????????????????????????????????????? 449
21.1 图中常见矩阵 450
21.2 关联矩阵 450
21.3 度矩阵 462
21.4 拉普拉斯矩阵 464
第7板块 图论实践 ???????????????????????????????????????????????????????????????????????????????????????????????????? 475
第 22章 树 ??????????????????????????????????????????????????????????????????????????????????????????????????????????????? 477
22.1 树 478
22.2 最近共同祖先 484
22.3 最小生成树 485
22.4 决策树:分类算法 487
22.5 层次聚类 490
22.6 树形图:聚类算法 496
第 23章 数据聚类 ??????????????????????????????????????????????????????????????????????????????????????????????????? 499
23.1 数据聚类 500
23.2 距离矩阵 502
23.3 相似度 504
23.4 无向图 506
23.5 拉普拉斯矩阵 507
23.6 特征值分解 509
第 24章 PageRank算法 ?????????????????????????????????????????????????????????????????????????????????????????? 513
24.1 PageRank 算法 514
24.2 线性方程组 522
24.3 幂迭代 526
第 25章 社交网络分析 ??????????????????????????????????????????????????????????????????????????????????????????? 533
25.1 社交网络分析 534
25.2 度分析 536
25.3 图距离 538
25.4 中心性 542
25.5 社区结构 547