数据清洗(第2版)
提供课件、大纲、源码、数据文件。"详细的示例引导,使读者掌握如何运用Kettle; 易懂的讲解,让读者更易理解ETL的本质; 从理论到操作,使读者全面掌握Kettle相关知识; 教材、资源、服务三合一 "

作者:黑马程序员

丛书名:大数据技术与应用丛书

定价:58元

印次:2-2

ISBN:9787302670292

出版日期:2024.08.01

印刷日期:2024.12.27

图书责编:袁勤勇

图书分类:教材

电子书
在线购买
分享
内容简介
作者简介
前言序言
资源下载
查看详情 查看详情 查看详情

"本书以Kettle 9.2为基础,全面介绍使用Kettle实现ETL的相关操作。全书共8章,分别讲解数据清洗和ETL的概念,Kettle的安装和使用,如何使用Kettle实现数据抽取、数据清洗、数据转换和数据加载,并在最后综合运用上述知识,构建一个电影租赁商店数据仓库,以使读者加深对Kettle和ETL的理解与掌握。 本书附有配套视频、教学PPT、教学设计、测试题等资源,同时,为了帮助初学者更好地学习本书中的内容,还提供了在线答疑,欢迎读者关注。 本书可以作为高等院校数据科学与大数据技术及相关专业的教材,也适合大数据开发初学者、ETL工程师以及数仓开发的从业者阅读。 "

黑马程序员是江苏传智播客教育科技股份有限公司旗下高端IT教育品牌,江苏传智播客教育科技股份有限公司是一家致力于培养高素质软件开发人才的科技公司。

前言 党的二十大报告提出“加快发展数字经济,促进数字经济和实体经济深度融合,打造具有国际竞争力的数字产业集群”。随着云时代的来临,移动互联网、电子商务、物联网以及社交媒体的快速发展,全球的数据正在以几何级速度爆发式增长,大数据也吸引了越来越多的人关注,此时数据已经成为与物质资产和人力资本同样重要的基础生产要素。 然而,数据的价值取决于其质量,而非数量。数据采集的不确定性、数据来源的多样性和复杂性经常会导致数据中存在缺失值、重复值、异常值等问题。如果直接使用这些数据,会严重影响数据决策的准确性。因此,在数据分析和应用的过程中,对数据进行有效的清洗成为关键环节。 本书基于ETL工具Kettle,循序渐进地介绍了ETL的相关知识,适合有一定数据治理和大数据基础的爱好者阅读。本书共8章内容,其中,第1、2章主要带领大家了解数据清洗和ETL的概念;第3章介绍ETL工具Kettle的基本概念和使用;第4章主要讲解如何使用Kettle从不同数据源抽取数据;第5章主要讲解如何使用Kettle进行数据清洗,包括重复值处理、缺失值处理和异常值处理;第6章主要讲解如何使用Kettle进行数据转换,包括数据规范化处理、数据粒度转换、数据的商务规则计算等;第7章主要讲解如何使用Kettle将数据加载到不同的目标系统;第8章综合运用前面所学的知识,构建一个电影租赁商店数据仓库,以使读者加深对Kettle和ETL的理解与掌握。 在学习过程中,如果读者在理解知识点的过程中遇到困难,建议不要纠结于某个地方,可以先往后学习。通常来讲,通过逐渐深入的学习,前面不懂和疑惑的知识点也就能够理解了。在实现...

目录
荐语
查看详情 查看详情
目录

第1章数据清洗概述1

1.1数据清洗的背景1

1.1.1数据质量概述1

1.1.2数据质量的评价指标2

1.1.3数据质量问题的分类3

1.2数据清洗的定义5

1.3数据清洗基本流程6

1.4数据清洗策略6

1.5数据清洗常用的方法7

1.6数据清洗面临的挑战9

1.7本章小结10

1.8课后习题10

第2章初识ETL12

2.1ETL的定义12

2.2ETL的体系结构13

2.3ETL关键步骤13

2.3.1抽取14

2.3.2转换15

2.3.3加载15

2.4常见的ETL工具16

2.5本章小结17

2.6课后习题17

第3章Kettle19

3.1初识Kettle19

3.1.1Kettle简介19

3.1.2Kettle的特点20

3.2Kettle的安装与启动20

3.3Kettle的转换和作业23

3.3.1转换23

3.3.2作业25

3.4Kettle的基本操作27

3.4.1转换管理27

3.4.2作业管理39

3.4.3数据库连接50

3.5本章小结55

3.6课后习题56

目录数据清洗(第2版)第4章数据抽取57

4.1从文件中抽取数据57

4.1.1从CSV文件中抽取数据57

4.1.2从TSV文件中抽取数据61

4.1.3从JSON文件中抽取数据65

4.1.4从XML文件中抽取数据70

4.1.5从HDFS中抽取数据75

4.2从数据库中抽取数据84

4.2.1从关系数据库中抽取数据84

4.2.2从非关系数据库中抽取数据87

4.3从Hiv... 查看详情

"本书以Kettle 9.2为基础,全面介绍了使用Kettle实现ETL的相关操作。全书共8章,分别讲解了数据清洗的概念、ETL的概念、Kettle的安装和使用、使用Kettle实现数据抽取、使用Kettle实现数据清洗、使用Kettle实现数据转换和使用Kettle实现数据加载,并在最后综合运用前面所学的知识,构建一个电影租赁商店数据仓库,加深对Kettle和ETL的理解和掌握。
本书通过详细的示例引导,使读者掌握运用Kettle的操作;讲解通俗易懂,让读者更易理解ETL的本质;理论结合实际操作,使读者全面掌握Kettle相关知识;一个实际案例贯穿全书,使读者领略并掌握开发大数据应用系统的完整过程。
    本书可以作为高等院校数据科学与大数据技术及相关专业的教材,并适合大数据开发初学者、ETL工程师以及数据仓库开发的从业者阅读。"

查看详情