





定价:48元
印次:1-4
ISBN:9787302600817
出版日期:2022.04.01
印刷日期:2025.01.10
图书责编:郭赛
图书分类:教材
本书为大数据时代下的产物,由浅入深地介绍大数据及其相关知识,在大数据的背景下着重介绍ETL数据处理技术,同时引入数据清洗的知识,理论与实际相结合,突出所长。在理论上,本书突出重点与难点,较为系统地介绍大数据的各项基本技术。在实践操作上,本书贴近生活,切实理解,紧跟实验进行,并从中萃取精华。同时本书还介绍ETL技术的主流工具,结合当下一些项目进行运用,并综合课后思考题,使读者在学习中体会大数据的乐趣,翱游在大数据的海洋中。 本书可作为高校新兴专业——数据科学专业的配套教材,也可作为其他专业的选修课教材,还可作为初学者的学习教程。
冯广,男,硕士生导师,现任广东工业大学网络信息与现代教育技术中心副主任,博士,网络规划师,硕士研究生导师。长期从事计算机网络技术、网络控制技术和控制科学与控制工程领域的教学与科研工作。主要研究方向有网络与信息化控制、**化控制、RFID技术、计算机网络等。
前言 在信息技术高速发展的今天,大数据的发展尤为显著,并影响着社会生产和人类生活的方方面面。随着信息数据量的急剧增长,大数据作为一门新兴的学科出现在人们的眼前。大数据又称巨量数据,是指涉及的资料量规模巨大到无法利用目前的主流软件工具在合理时间内整理成为有用资讯的数据。 对一个国家而言,能否紧紧抓住大数据的发展机遇,形成大数据体系,参与新一轮的全球竞争,将影响未来的发展方向,甚至若干年内世界范围内的科技力量主导。在大数据竞争的博弈中,大数据专业人才的培养更是新一轮科学技术较量的基础和重点,各大高校和研究机构承担着大数据人才培养的重任,要为国家的发展输入源源不断的动力。为此,大数据课程的开设和大数据知识的学习也就显得尤为重要,受到了各大高校和科研机构的高度重视。 ETL技术作为大数据背景下不可或缺的一环贯穿着数据的始终,是数据技术人员必备的技能,也逐渐成为大数据专业的一门重要的专业基础课程。 本书以帮助读者掌握大数据技术为目标,详细介绍大数据的基本情形和未来发展方向,ETL技术贯穿全书,使读者在学习ETL技术的过程中感受大数据的魅力。 本书分为6章,采用理论知识与项目教学的方式组织内容,每个项目都来自典型案例,具有说服力,各章节由理论介绍入手,结合实际项目练习扩展知识面,每章最后提供自测题。 第1章为绪论,由大数据切入,介绍大数据的基本概况,进而引入ETL,且对这3个过程做了整体说明,接着引入本书的第一个入门案例,利用ETL技术对论文中的年份进行处理。 第2章引入ETL的第一个过程(数据抽取),详细介绍数据抽取的方式,紧接着对各种形式下的数据源抽取进行分类介绍...
第1章从大数据到ETL1
1.1大数据概述1
1.1.1大数据的定义2
1.1.2大数据的基本性质2
1.1.3大数据的影响4
1.1.4大数据带来的挑战7
1.2科学处理数据9
1.3ETL简介10
1.3.1ETL的基本定义10
1.3.2ETL的基本过程11
1.3.3ETL的架构体系11
1.3.4ETL的必要性13
1.3.5ETL的分类14
1.3.6基本ETL过程与数据清理的区别14
1.3.7ETL现状与发展15
1.4数据抽取16
1.4.1数据抽取的概念16
1.4.2分类抽取16
1.4.3数据抽取的原则和方法17
1.5数据转换17
1.5.1数据转换的概念17
1.5.2类型转换17
1.6数据加载18
1.6.1数据加载的概念18
1.6.2数据加载方式18
1.7实验任务——处理论文的年份19
1.8小结23
1.9习题23第2章数据抽取25
2.1数据源25
2.1.1关系数据库25
2.1.2非关系数据库27
2.1.3通用程序库28
2.2数据抽取方式29
2.2.1全量抽取29
2.2.2增量抽取29
2.2.3增量抽取的比较分析30
2.3Hadoop的数据抽取32
2.3.1Hadoop简介32
2.3.2Hadoop研究现状32
2.3.3环境搭建34
2.3.4数据采集34
2.4Web文件的数据抽取35
2.4.1Web文件简介35
2.4.2主要工作35
2.4.3主要工具——Connotate35
2.4.4应用分析——基... 查看详情