图书目录

目    录

第 1 章  认识数据资产 1

1.1  数据资产的基本介绍 1

1.2  数据资产的分类 4

1.3  数据资产的价值评估 5

1.4  数据资产的质量 6

1.5  数据资产的存储 6

1.6  数据资产管理 9

1.7  数据资产管理的信息化建设 11

1.8  数据资产与人工智能 11

第 2 章  元数据的采集与存储 13

2.1  Hive中的元数据采集 14

2.1.1  基于Hive Meta DB的元数据采集 14

2.1.2  基于Hive Catalog的元数据采集 18

2.1.3  基于Spark Catalog的元数据采集 21

2.2  Delta Lake中的元数据采集 29

2.2.1  基于Delta Lake自身设计来采集元数据 31

2.2.2  基于Spark Catalog来采集元数据 32

2.3  MySQL中的元数据采集 34

2.4  Apache Hudi中的元数据采集 41

2.4.1  基于Spark Catalog采集元数据 42

2.4.2  Hudi Timeline Meta Server 43

2.4.3  基于Hive Meta DB采集元数据 47

2.5  Apache Iceberg中的元数据采集 49

2.5.1  Iceberg的元数据设计 50

2.5.2  Iceberg元数据的采集 54

2.6  元数据的存储模型设计 56

2.6.1  如何对元数据进行整合 56

2.6.2  元数据的存储模型设计 57

第 3 章  数据血缘 59

3.1  获取数据血缘的技术实现 59

3.1.1  如何从Hive中获取数据血缘 60

3.1.2  从Spark执行计划中获取数据血缘 66

3.1.3  从Spark SQL语句中获取数据血缘 82

3.1.4  从Flink中获取数据血缘 91

3.1.5  从数据任务的编排系统中获取数据血缘 92

3.2  数据血缘的存储模型与展示设计 94

第 4 章  数据质量的技术实现 98

4.1  质量数据采集的技术实现 100

4.1.1  定义数据采集的规则 100

4.1.2  定时Job的技术选型 103

4.2  如何处理采集到的质量数据 109

4.3  质量数据的存储模型设计 110

4.4  常见的开源数据质量管理平台 112

4.4.1  Apache Griffin 112

4.4.2  Qualitis 113

第 5 章  数据监控与告警 116

5.1  数据监控 116

5.1.1  数据监控的种类 116

5.1.2  监控数据的特点与存储方式 117

5.2  常见的数据监控目标 118

5.2.1  数据链路监控 118

5.2.2  数据任务监控 124

5.2.3  数据质量监控 125

5.2.4  数据服务监控 125

5.2.5  数据处理资源监控 126

5.3  Prometheus简介 128

5.4  Grafana简介 135

5.5  使用Grafana和Prometheus来实现数据监控与告警 138

5.5.1  数据链路的告警实现 138

5.5.2  数据任务的告警实现 141

5.5.3  数据质量的告警实现 142

5.5.4  数据服务的告警实现 142

5.5.5  数据处理资源的告警实现 143

第 6 章  数据服务 146

6.1  如何设计数据服务 146

6.1.1  数据源管理 148

6.1.2  数据服务的敏捷化和可配置化 148

6.1.3  数据服务文档的自动生成 151

6.1.4  数据服务的统一认证与鉴权 151

6.1.5  数据服务的监控与告警 153

6.2  数据服务的性能 155

6.3  数据服务的熔断与降级 159

第 7 章  数据权限与安全 163

7.1  常见的权限设计模式 163

7.1.1  基于角色的访问控制 164

7.1.2  基于属性的访问控制 165

7.1.3  基于对象的访问控制 165

7.2  数据权限 166

7.2.1  列权限控制 167

7.2.2  行权限控制 170

7.3  数据脱敏 171

7.4  数据安全 174

第 8 章  数据资产架构 176

8.1  数据资产的架构设计 177

8.1.1  数据获取层 177

8.1.2  数据处理层 178

8.1.3  数据存储层 180

8.1.4  数据管理层 182

8.1.5  数据分析层 182

8.1.6  数据服务层 183

8.2  常见的开源数据资产管理平台 185

8.2.1  Apache Atlas 185

8.2.2  Data Hub 186

8.2.3  OpenMetadata 189

第 9 章  元数据管理实践 193

9.1  如何理解元数据 194

9.1.1  为何需要元数据 194

9.1.2  如何让元数据产生更大价值 195

9.1.3  元数据分类及其好处 196

9.1.4  元数据管理 198

9.1.5  参与角色 201

9.2  元数据管理 202

9.2.1  元数据模型的组织关系 202

9.2.2  元数据的采集 204

9.2.3  业务域设计 205

9.2.4  业务术语设计 209

9.2.5  元数据标签设计 212

9.2.6  数据Owner 214

9.2.7  数据生命周期 215

9.2.8  元数据注册和发布 216

9.2.9  核心功能介绍 218

第 10 章  数据建模实践 224

10.1  什么是数据建模 224

10.1.1  数据模型分类 224

10.1.2  数据建模方法 227

10.2  数据仓库建模架构 229

10.3  关系型数据建模 231

10.3.1  概念模型阶段 231

10.3.2  逻辑模型阶段 235

10.3.3  物理模型阶段 238

10.4  维度建模 240

10.4.1  基本概念 240

10.4.2  维度表设计 246

10.4.3  事实表分类 250

10.4.4  基于维度建模的数据分析实践 251

参考文献 253