首页 > 图书中心 > 大数据采集与预处理技术(HDFS+HBase+Hive+Python)(微课视频版)

前言

前言

据赛迪智库预测,中国近年来大数据核心人才缺口达230万人,全世界相关人才缺口超过1000万人。我国教育部门为了响应社会发展需要,于2016年开始正式开设“数据科学与大数据技术”本科专业及“大数据技术与应用”专科专业。近几年,全国形成了申报与建设大数据相关专业的热潮。目前全国各类高校、高职院校都已陆续开设了大数据相关的专业和课程。大数据作为交叉型学科,其相关专业强调培养具有多学科交叉能力的大数据人才。

大数据专业是顺应时代发展的产物。大数据作为新兴的、交叉的专业,在培养方案、系列教材等方面,各高校都在组织教师进行改进、研究。普遍认为,数据科学与大数据技术专业的毕业生,应掌握计算机理论和大数据处理技术,需要从大数据应用的三个主要层面(即数据管理、系统开发、海量数据分析与挖掘)系统地培养,能够应对大数据应用中的各种典型问题,具有将领域知识与计算机技术和大数据技术融合、创新的能力,可以从事大数据研究和开发应用等工作。

本书主要介绍大数据关键技术中的大数据采集和数据预处理技术,是大数据专业的入门级的专业基础课教程,旨在为学生搭建起大数据的知识架构,讲述大数据采集和数据预处理的基本原理,开展相关的实验,为学生在大数据以及相关领域的学习奠定坚实的基础。

本书以大数据关键技术为主线,重点介绍大数据采集技术和数据预处理技术。本书共四大部分,共11章。第一部分:大数据基础,含第1章概述、第2章大数据采集技术基础和第6章数据预处理基础;第二部分:大数据采集,含第3章系统日志数据采集、第4章基于数据库的数据迁移和第5章互联网数据采集;第三部分:数据预处理,含第7章数据清洗与集成和第8章数据归约与变换;第四部分:实验指导,含第9章大数据采集实验、第10章数据预处理实验和第11章综合案例实验,涉及的实验是在东软集团股份有限公司研制开发的SaCa RealRec数据科学平台上进行设计编写的。

本书的文本层次分明、逻辑性强、概念清晰、可读性强,具有如下特点:

(1) 主要参照“数据科学与大数据技术”本科专业的培养方案,综合考虑专业的本源,如从计算机类专业、数学统计类专业以及经济类专业。

(2) 注重理论联系实际,实践能力培养。书中既有理论讲解也有配套的实践教程,力求通过理论和原理教学、课堂讨论与课程实验等多个环节,训练学生掌握知识、运用知识分析并解决实际问题的能力,以满足学生今后就业或科研的需求,同时满足“全国工程教育专业认证”对学生基本能力的培养要求与复杂问题求解能力的要求。

(3) 配套资源丰富。教材配有PPT电子教案及相关的电子资源,如实验要求及Demo、配套的实验资源管理与服务平台等,形成了立体化系列教材。

本书由东北石油大学计算机与信息技术学院唐世伟、田枫、盖璇、李学贵、林君合作编写。其中,第1、6、7、8、11章主要由唐世伟编写,第2、4、10章主要由田枫编写,第3、5、9章主要由盖璇编写,第11章由李学贵编写,林君参与了部分章节的编写,全书由唐世伟统稿。在本书的编写过程,参考了大量的相关文献,并有选择地纳入本书中,在此向文献作者表示感谢。

由于编者水平有限,书中难免存在不足之处,敬请广大读者批评指正,希望学术同仁不吝赐教。

编者2022年4月于大庆

版权所有(C)2023 清华大学出版社有限公司 京ICP备10035462号 京公网安备11010802042911号

联系我们 | 网站地图 | 法律声明 | 友情链接 | 盗版举报 | 人才招聘