数据清洗
提供课件、教学大纲、教学设计、咨询QQ:2301891038(仅限教师)数据清洗全方位实战的教学用书,零基础入门,目标清晰,习题丰富,图文并茂,超多专业的实用案例,真实的大型数据清洗项目,丰富的配套数字资源,贴心的在线咨询服务,助您成为数据清洗的能手。

作者:黑马程序员

丛书名:大数据技术与应用丛书

定价:59.9元

印次:1-13

ISBN:9787302550877

出版日期:2020.04.01

印刷日期:2024.07.02

图书责编:袁勤勇

图书分类:教材

电子书
在线购买
分享
内容简介
作者简介
前言序言
资源下载
查看详情 查看详情 查看详情

数据清洗是大数据预处理的关键环节。面对错综复杂的数据,传统的清洗“脏”数据工作单调且异常辛苦,如果能利用正确的工具和方法,可以让数据清洗工作变得事半功倍。本书讲解数据清洗的理论知识和实际应用,全书共8章: 第1章主要带领大家简单认识数据清洗;第2章主要讲解ETL技术相关的知识;第3章讲解Kettle工具的基本使用;第4章主要讲解数据清洗的第一步——数据抽取;第5章主要讲解数据清洗与检验;第6章主要讲解数据转换相关的知识;第7章主要讲解数据加载相关的知识;第8章利用前面章节所学的知识构建一个DVD租赁商店数据仓库,目的是实现定期从源数据库sakila中抽取增量数据,转换成符合DVD租赁业务的数据,最后加载到DVD租赁商店数据仓库中,便于后续在线DVD租赁商店的决策者对数据进行分析得出商业决策。本书附有配套视频、源代码、习题、教学设计、教学课件等资源。同时,为了帮助初学者更好地学习本书中的内容,还提供了在线答疑,欢迎读者关注。 本书可作为高等院校本专科计算机、信息管理等相关专业的大数据课程教材,也可供相关技术人员参考,是一本适合广大计算机编程爱好者的优秀读物。

江苏传智播客教育科技股份有限公司(简称传智播客)是一家致力于培养高素质软件开发人才的科技公司,“黑马程序员”是传智播客旗下高端IT教育品牌。

江苏传智播客教育科技股份有限公司(简称“传智播客”)是一家致力于培养高素质软件开发人才的科技公司。经过多年探索,传智播客的战略逐步完善,从IT教育培训发展到高等教育,从根本上解决以“人”为单位的系统教育培训问题,实现新的系统教育形态,构建出前后衔接、相互呼应的分层次教育培训模式。 一、 “黑马程序员”——高端IT教育品牌 “黑马程序员”的学员多为大学毕业后,想从事IT行业,但各方面条件还不成熟的年轻人。“黑马程序员”的学员筛选制度非常严格,包括了严格的技术测试、自学能力测试,以及性格测试、压力测试、品德测试等。百里挑一的残酷筛选制度确保学员质量,并降低企业的用人风险。 自“黑马程序员”成立以来,教学研发团队一直致力于打造精品课程资源,不断在产、学、研3个层面创新自己的执教理念与教学方针,并集中“黑马程序员”的优势力量,有针对性地出版了计算机系列教材90多种,制作教学视频数十套,发表各类技术文章数百篇。 “黑马程序员”不仅斥资研发IT系列教材,还为高校师生提供以下配套学习资源与服务。 1. 为大学生提供的配套服务 (1) 请同学们登录http://yx.ityxb.com,进入“高校学习平台”,免费获取海量学习资源。平台可以帮助高“播妞学姐”微信公众号 校学生解决各类学习问题。 (2) 针对高校学生在学习过程中存在的压力大等问题,我们还面向大学生量身打造了IT技术女神——“播妞学姐”,可提供教材配套源码、习题答案及更多学习资源。同学们快来关注“播妞学姐”的微信公众号boniu1024。 2. 为教师提供的配套服务 针对高校教学,“黑马程序员”为IT系列教...

目录
荐语
查看详情 查看详情
第1章数据清洗概述1

1.1数据清洗的背景1

1.1.1数据质量概述1

1.1.2数据质量的评价指标2

1.1.3数据质量的问题分类3

1.2数据清洗的定义6

1.3数据清洗的原理6

1.4数据清洗的基本流程7

1.5数据清洗的策略8

1.6常见的数据清洗方法8

1.7本章小结9

1.8本章习题9

第2章初识ETL11

2.1基于ETL的数据清洗11

2.1.1ETL的概念11

2.1.2ETL的体系结构12

2.2ETL关键技术12

2.2.1数据的抽取12

2.2.2数据的清洗转换13

2.2.3数据的加载15

2.3ETL常见工具介绍16

2.4本章小结17

2.5本章习题17

第3章Kettle工具的基本使用19

3.1Kettle简介19

3.1.1Kettle概述19

3.1.2Kettle的设计原则203.2Kettle的下载安装21

3.3Kettle的基本概念23

3.3.1转换24

3.3.2作业28

3.4Kettle的基本功能32

3.4.1转换管理32

3.4.2作业管理42

3.4.3数据库连接48

3.5本章小结51

3.6本章习题52

目录数据清洗第4章数据抽取53

4.1抽取文本数据53

4.1.1TSV文件的抽取53

4.1.2CSV文件的抽取61

4.2抽取Web数据68

4.2.1HTML网页的数据抽取68

4.2.2XML文件的数据抽取75

4.2.3JSON文件的数据抽取84

4.3抽取数据库数据92

4.3.1抽取关系型数据库的数据92

4.... 查看详情

数据清洗是数据挖掘与分析过程中不可缺少的环节,但因为数据类型极其复杂,传统的清洗脏数据工作单调乏味且异常辛苦。如果能使用正确的工具和方法,就可以让数据清洗工作事半功倍。本书讲述了大量的数据清洗的原理和方法,并介绍了真实的案例。让读者看了就懂,懂了就会做。

本书的读者可以零基础入门,不管会不会编程,都可以通过本书学会数据清洗。

每章开头都配有学习目标,每章末尾提供一套习题供读者练习,便于读者学习。

借助大量图示分析工作原理,降低学习难度,提升读者的学习兴趣。

本书采用理论+案例式的方式编排,几乎每个小节都配有动手案例,每个案例都清晰介绍了应用场景、实现步骤,让读者可以边学边练。

本书最后一章讲解了具有真实场景的DVD租赁业务数据清洗项目的全过程,让读者迅速积累实际项目经验,为未来的工作奠定理论和实践基础。

本书配套了丰富的教学资源供广大师生使用,另外,作者团队还提供了贴心、专业的在线咨询服务,随时解决教师和学生在使用本教材、资源过程中遇到的问题。


查看详情