





作者:陈明
定价:59元
印次:1-4
ISBN:9787302566762
出版日期:2021.06.01
印刷日期:2024.12.09
图书责编:龙启铭
图书分类:教材
大数据技术凝集了多学科的研究成果,是一门多学科的交叉融合技术。随着科学技术的发展,大数据技术发展更为迅速,应用更为深入与广泛,并凸显其巨大潜力和应用价值。 “数据科学与大数据技术导论”是数据科学与大数据技术专业的第一门专业基础课程。这门课程可以引导数据科学与大数据技术专业的学生走进大数据技术的大门。 本书主要介绍数据科学与大数据技术的基本知识。全书共分11章,包括数据科学与大数据技术概述、Hadoop大数据处理平台、大数据采集与存储管理、大数据抽取、大数据清洗、数据转换、大数据约简、大数据集成、大数据分析、大数据挖掘、数据可视化与可视分析等内容。 本书语言精练,内容完整,案例丰富,可作为高等院校“数据科学与大数据技术导论”课程的教材,也可作为学习数据科学与大数据技术人员的参考书。
教授,博士生导师 。研究领域为分布计算、计算智能、大数据技术等。中国石油大学(北京)计算机科学与技术系创始系主任。获北京市教学名师奖。中国工程教育认证专家。
前言 大数据技术的精髓是从大数据中产生新见解,识别复杂关系和做出越来越精准的预测。 大数据技术是现代科学与技术发展,尤其是计算机科学技术发展的重要成果和结晶,是计算机科学发展史的又一个新的里程碑。大数据的出现对计算机等许多领域产生了挑战与冲击,推动了计算机科学技术的发展。 大数据技术凝集了多学科的研究成果,是一门多学科交叉融合的技术。随着科学技术的发展,大数据技术发展更为迅速,应用更为深入与广泛,并凸显其巨大潜力和应用价值。 “数据科学与大数据技术导论”是数据科学与大数据技术专业的第一门专业基础课程。这门课程可以引导数据科学与大数据技术专业的学生走进大数据技术的大门。为此,本书内容的组织宽泛,以大数据技术为核心展开。从大数据的基本概念与特点到大数据处理平台(Hadoop、Spark),从数据获取、清洗、抽取、约简、转换、集成、统计分析、挖掘,到获得结果的全过程都进行了介绍。学生通过上述内容的学习,可以为后续课程的学习奠定坚实的基础。 本书在内容方面,注重大数据技术的基本概念、模型、结构和方法的清晰描述。对主要的算法,如分类算法、聚类算法等典型重要的算法给出了形式化描述,并给出了Python代码。 本书在结构上为积木状,各章内容独立地进行概念性与方法性论述。出于篇幅考虑,书中所提及定理没有给出证明,如需要可以查阅相关文献。 由于作者水平有限,书中不足之处在所难免,敬请读者批评指正。 编〓者2021年1月
第1章数据科学与大数据技术概述/1
知识结构1
1.1数据科学简介1
1.1.1数据科学的产生与发展1
1.1.2数据科学的定义与方法2
1.1.3数据科学的知识体系6
1.1.4数据科学、数据技术与数据工程7
1.2大数据的生态环境与概念8
1.2.1大数据的生态环境8
1.2.2大数据的概念9
1.3大数据处理周期12
1.3.1大数据处理的全过程12
1.3.2大数据技术的特征13
1.4大数据处理模式13
1.4.1离线处理模式14
1.4.2在线处理模式14
1.4.3交互处理模式19
1.5科学研究第四范式19
1.5.1科学研究范式产生与发展19
1.5.2数据密集型科学研究第四范式20
1.6大数据应用25
1.6.1大数据应用趋势25
1.6.2大数据应用评价与应用实例26
本章小结28
第2章Hadoop大数据处理平台/29
知识结构29
2.1MapReduce分布编程模型29
2.1.1MapReduce计算过程30
2.1.2基于MapReduce的计算举例30数据科学与大数据技术导论目录2.2基于Hadoop的分布计算30
2.2.1作业服务器31
2.2.2计算流程31
2.2.3MapReduce程序的执行过程33
2.3MapReduce程序设计分析35
2.3.1MapReduce模型编程方法35
2.3.2单词计数程序设计36
2.4YARN大数据处理平台40
2.4.1Hadoop 1.0版本的缺点40
2.4.2轻量级弹性计算平台41
2.4.3... 查看详情