Greenplum构建实时数据仓库实践
详解Greenplum构建实时数据仓库技术,使用纯SQL处理历史全量数据

作者:王雪迎

丛书名:大数据技术丛书

定价:89元

印次:1-2

ISBN:9787302611653

出版日期:2022.08.01

印刷日期:2023.09.06

图书责编:夏毓彦

图书分类:零售

电子书
在线购买
分享
内容简介
作者简介
前言序言
资源下载
查看详情 查看详情 查看详情

Greenplum分布式数据库具有可选存储模式、事务支持、并行查询与数据装载、容错与故障转移、数据库统计、过程化语言扩展等方面的功能特性,因此Greenplum成为一款理想的分析型数据库产品。本书详解Greenplum数据仓库构建与数据分析技术,配套示例源码。 本书共分10章。内容包括数据仓库简介、数据仓库设计基础、Greenplum与数据仓库、Greenplum安装部署、实时数据同步、实时数据装载、维度表技术、事实表技术、Greenplum运维与监控、集成机器学习库MADlib。 本书适合Greenplum初学者、大数据分析系统设计与开发、数据仓库系统设计与开发、DBA、架构师等相关技术人员阅读,也适合高等院校大数据相关专业的师生作为实训教材。

王雪迎 ,毕业于中国地质大学计算机专业,高级工程师,20年数据库、数据仓库相关技术工作经验。先后供职于北京现代商业信息技术有限公司、北京在线九州信息技术服务有限公司、华北计算技术研究所、北京优贝在线网络科技有限公司,担任DBA、数据架构师等职位。著有图书《Greenplum构建实时数据仓库实践》《Hadoop构建数据仓库实践》《HAWQ数据仓库与数据挖掘实战》《SQL机器学习库MADlib技术解析》《MySQL高可用实践》。

前 言 从Bill Inmon在1991年提出数据仓库的概念起,至今已有三十年的时间。在这期间人们所面对的数据,以及处理数据的方法都发生了翻天覆地的变化。起初数据仓库系统运行在单机或小型集群之上,程序以批处理方式周期性运行ETL作业。最为常见的执行方式是在每天业务低峰期处理前一天产生的业务数据,即所谓的T+1模式。后来随着互联网和移动终端等应用的普及,需要处理的数据量不断增大,出现了大数据的概念,以Hadoop及其生态圈组件为代表的新一代分布式大数据处理平台逐渐流行。近年来随着业务领域的不断拓展,人们对数据分析的实时性要求越来越高,离线批处理方式所产生的延时已不能满足需求。以Hadoop为代表的分布式框架并没有给出实时计算解决方案,于是便出现了Storm、Spark Streaming、Flink等实时计算框架,可提供秒级的响应时间,在此基础上实时数据仓库应运而生。 作为DBA,我更倾向于采用一种不编程、组件少、门槛低、易上手、纯SQL,并能处理包含历史全量数据的方案,用来实现实时数据仓库。不可否认,SQL仍然是数据库、数据仓库中最常使用的开发语言,也是传统数据库工程师或DBA的必会语言,从它出现至今一直被广泛使用。首先,SQL有坚实的关系代数作为理论基础,经过几十年的积累,查询优化器已经相当成熟。再者,对于开发者,SQL作为典型的非过程语言,其语法相对简单,但语义却相当丰富。据统计95%的数据分析问题都能用SQL解决,这是一个相当惊人的结论。 本书介绍的实现方案能满足以上所有要求,涉及的具体技术包括:MySQL主从复制,保证为业务系统提供可靠的数据库服务,并提供数...

暂无课件

样章下载

暂无网络资源

扫描二维码
下载APP了解更多

目录
荐语
查看详情 查看详情
目   录

第1章  数据仓库简介 1

1.1  什么是数据仓库 1

1.1.1  数据仓库的定义 2

1.1.2  建立数据仓库的原因 3

1.2  操作型系统与分析型系统 5

1.2.1  操作型系统 5

1.2.2  分析型系统 7

1.2.3  操作型系统和分析型系统的对比 8

1.3  抽取—转换—装载 10

1.3.1  数据抽取 10

1.3.2  数据转换 12

1.3.3  数据装载 13

1.3.4  开发ETL系统的方法 13

1.4  数据仓库架构 14

1.4.1  基本架构 14

1.4.2  主要数据仓库架构 15

1.4.3  操作型数据存储 19

1.5  实时数据仓库 19

1.5.1  流式处理 20

1.5.2  实时计算 21

1.5.3  实时数据仓库解决方案 24

1.6  小结 26

第2章  数据仓库设计基础 27

2.1  关系数据模型 27

2.1.1  关系数据模型中的结构 27

2.1.2  关系完整性 30

2.1.3  关系数据库语言 31

2.1.4  规范化 32

2.1.5  关系数据模型与数据仓库 34

2.2  维度数据模型 36

2.2.1  维度数据模型建模过程 36

2.2.2  维度规范化 37

2.2.3  维度数据模型的特点 38

2.2.4  星型模式 39

2.2.5  雪花模式 41

2.3  Data Vault模型 43

2.3.1  Data Vault模型简介 43

2.3.2  Data Vault模型的... 查看详情

本书详解Greenplum构建实时数据仓库,涉及的具体技术包括:
MySQL主从复制,保证为业务系统提供可靠的数据库服务,并提供数据来源。
Canal Server实时获取增量MySQL binlog,并将其传入Kafka消息队列。
Kafka将消息持久化,同时提供可伸缩、高吞吐的消息服务。
Canal ClientAdapter负责消费Kafka中的消息,将数据流传输到Greenplum。
Greenplum提供实时ETL功能,自动维护操作数据存储、维度表与事实表。
Greenplum数据库权限与角色管理、数据导入导出、性能优化、监控与维护。
Greenplum集成机器学习库MADlib,对数据进行分析与挖掘。
查看详情