Kettle构建Hadoop ETL系统实践
轻松运用Kettle完成Hadoop数据仓库的FTL过程

作者:王雪迎

丛书名:大数据技术丛书

定价:79元

印次:1-2

ISBN:9787302582618

出版日期:2021.08.01

印刷日期:2022.01.11

图书责编:夏毓彦

图书分类:零售

电子书
在线购买
分享
内容简介
作者简介
前言序言
资源下载
查看详情 查看详情 查看详情

Kettle是一款国外开源的ETL工具,纯Java编写,无须安装,功能完备,数据抽取高效稳定。 本书介绍并演示如何用Kettle完成Hadoop数据仓库上的ETL过程,所有的描绘场景与实验环境都是基于Linux操作系统的虚拟机。全书共分10章,主要内容包括ETL与Kettle的基本概念、Kettle安装与配置、Kettle对Hadoop的支持、建立ETL示例模型、数据转换与装载、定期自动执行ETL作业、维度表技术、事实表技术,以及Kettle并行、集群与分区技术。 本书既适合大数据分析系统开发、数据仓库系统设计与开发、DBA、架构师等相关技术人员阅读,也适合高等院校和培训机构人工智能与大数据相关专业的师生参考。

王雪迎 ,毕业于中国地质大学计算机专业,高级工程师,20年数据库、数据仓库相关技术工作经验。先后供职于北京现代商业信息技术有限公司、北京在线九州信息技术服务有限公司、华北计算技术研究所、北京优贝在线网络科技有限公司,担任DBA、数据架构师等职位。著有图书《Hadoop构建数据仓库实践》《HAWQ数据仓库与数据挖掘实战》《SQL机器学习库MADlib技术解析》《MySQL高可用实践》。

前 言 2017年我写了第一本书,名为《Hadoop构建数据仓库实践》。那本书详细地介绍了如何利用Hadoop生态圈组件构建传统数据仓库,如使用Sqoop从关系型数据库全量或增量抽取数据到Hadoop系统、使用Hive进行数据转换和装载处理、使用Oozie调度ETL过程自动定时执行等。作为进阶,书中还讲解了多维数据仓库技术中的渐变维、代理键、角色扮演维度、层次维度、退化维度、无事实的事实表、迟到事实、累计度量等常见问题在Hadoop上的处理方法。所有这些内容都以CDH(Cloudera's Distribution Including Apache Hadoop)为运行平台,并用一个简单的销售订单示例来系统说明。 该书介绍的大部分功能都是通过Hive SQL来实现的,其中有些SQL语句逻辑复杂,可读性也不是很好。如今四年过去了,技术已经有了新的发展,同时我对Hadoop数据仓库这个主题也有了新的思考,那就是有没有可能使用一种GUI(Graphical User Interface,图形用户界面)工具来实现上述所有功能呢?伴随着寻找答案的过程,经过持续的实践与总结,于是就有了呈现在读者面前的这本新书。本书介绍并演示如何用Kettle完成Hadoop数据仓库的ETL过程。我们仍然以CDH作为Hadoop平台,沿用相同的销售订单示例进行说明,因此可以将本书当作《Hadoop构建数据仓库实践》的另一版本。 面对各种各样的ETL开发工具,之所以选择Kettle,主要由于它的一些鲜明特性。首先,很明确的一点是,作为一款GUI工具,Kettle的易用性好,编码工作量最小化。几乎所...

暂无课件

暂无样章

暂无网络资源

扫描二维码
下载APP了解更多

目录
荐语
查看详情 查看详情
目    录

第1章  ETL与Kettle 1

1.1  ETL基础 1

1.1.1  数据仓库架构中的ETL 1

1.1.2  数据抽取 3

1.1.3  数据转换 5

1.1.4  数据装载 6

1.1.5  开发ETL系统的方法 6

1.2  ETL工具 7

1.2.1  ETL工具的产生 7

1.2.2  ETL工具的功能 7

1.3  Kettle基本概念 10

1.3.1  Kettle设计原则 11

1.3.2  转换 12

1.3.3  作业 15

1.3.4  数据库连接 18

1.3.5  连接与事务 21

1.3.6  元数据与资源库 21

1.3.7  工具 22

1.3.8  虚拟文件系统 26

1.4  为什么选择Kettle 27

1.4.1  主要特性 27

1.4.2  与SQL的比较 27

1.5  小结 30

第2章  Kettle安装与配置 31

2.1  安装 31

2.1.1  确定安装环境 31

2.1.2  安装前准备 33

2.1.3  安装运行Kettle 41

2.2  配置 43

2.2.1  配置文件和.kettle目录 44

2.2.2  用于启动Kettle程序的shell脚本 48

2.2.3  管理JDBC驱动 49

2.3  使用资源库 50

2.3.1  Kettle资源库简介 50

2.3.2  创建数据库资源库 50

2.3.3  资源库的管理与使用 51

2.4  小结 55

第3章  Kettle对Hadoop的支持 5... 查看详情

Kettle易用性好,编码工作量小,功能完备,基于Java,允许多线程与并发执行以提高效率。本书以CDH作为Hadoop平台,结合销售订单示例,详细介绍并演示如何使用Kettle完成Hadoop数据仓库的ETL过程。本书适合大数据分析系统开发、数据仓库系统设计与开发、DBA、架构师等相关技术人员阅读。 查看详情