首页 > 图书中心 >图书详情
大数据技术基础(第2版)
作者:宋旭东 主编,刘月凡 宋亮 王立娟 李修飞 副主编,路文静 路旭明 王春爽 于林林 参编
丛书名:计算机技术入门丛书
定价:59.80元
印次:2-1
ISBN:9787302667308
出版日期:2024.08.01
印刷日期:2024.07.25
"本书系统介绍了大数据基础知识和相关技术,全书分为大数据基础、大数据存储与管理篇、大数据采集与预处理、大数据分析与挖掘、大数据平台Hadoop实践与应用案例5篇,共17章,主要内容包括大数据基本概念、大数据平台Hadoop基础、大数据存储与管理基本概念、大数据分布式文件系统HDFS、大数据分布式数据库系统HBase、大数据分布式数据仓库系统Hive、大数据采集与预处理技术、大数据采集工具、大数据计算模式、大数据MapReduce计算模型、大数据Spark计算模型、大数据Flink计算模型、大数据MapReduce基础算法、大数据挖掘算法、Hadoop大数据平台实践、开敞式码头系泊缆力预测应用案例以及曙光XData大数据平台及应用案例。全书提供了大量应用实例,且大多章后附有习题。本书特色在于融会贯通大数据基本概念与大数据技术及应用,很好地将大数据概念、技术及应用融合在一起,便于读者更好地理解大数据基本概念,更快掌握大数据前沿技术及其应用。 本书适合作为高等院校计算机、软件工程、信息管理等相关专业的本科生及研究生大数据技术课程的教学用书,也可作为相关IT工程技术人员的参考用书。 本书适合机器学习初学者,包括本科生、研究生以及未来有意向从事人工智能领域工作的人员学习使用。 "
more >前言(第2版) 《大数据技术基础》第1版于2019年8月完成,距今已有4年多的时间。在过去的4年时间里,一方面,大数据技术发展迅猛,诸如Flink流计算等新技术迅速崛起,为大数据采集、存储、处理和计算带来众多新概念、新框架和新方法。因此,我们对第1版内容进行了补充和修订,例如,有关Kafka消息队列、Flink流计算模型等内容,以适应大数据技术的快速发展,保持本书的先进性。另一方面,我们结合广大一线教师在使用本教材进行教学过程中的收获与体会,以及提出的宝贵意见和修改建议,对第1版中有关大数据HBase数据库和大数据Hive数据仓库操作实践等内容进行了补充和修订,以适应广大师生实践大数据操作需求,保持本书的实用性。 本书依然保持融会贯通大数据概念与大数据技术及应用特色,很好地将大数据概念、技术及应用融合在一起,便于读者更好地理解大数据基本概念,更快掌握大数据前沿技术及其应用。本书依然沿用第1版的篇幅设计,全书分为5篇: 大数据基础、大数据存储与管理、大数据采集与预处理、大数据分析与挖掘、大数据平台Hadoop实践与应用案例。 在章节部分,新增加一章,即第12章“大数据Flink计算模型”,被安排在第4篇“大数据分析与挖掘”中。新增加的“Kafka消息队列大数据采集系统”,被安排在第3篇“大数据采集与预处理”的第8章“大数据采集工具”中的第3节。新增加的“大数据回归分析算法”被安排在第4篇“大数据分析与挖掘”的第14章“大数据挖掘算法”中的第4节。除此之外,对本书的第1章“大数据基本概念”、第2章“大数据平台Hadoop基础”、第4章“大数据分布式文件系统HDFS”、第5章“大数据分布式数据库系统HBase”、第6章“大数据分布式数据仓库系统Hive”、第8章第2节“Flume日志大数据采集系统”和第10章“大数据MapReduce计算模型”等进行了内容更新和补充。 修订后,全书共17章,主要内容包括大数据基本概念、大数据平台Hadoop基础、大数据存储与管理基本概念、大数据分布式文件系统HDFS、大数据分布式数据库系统HBase、大数据分布式数据仓库系统Hive、大数据采集与预处理技术、大数据采集工具、大数据计算模式、大数据MapReduce计算模型、大数据Spark计算模型、大数据Flink计算模型、大数据MapReduce基础算法、大数据挖掘算法、Hadoop大数据平台实践、开敞式码头系泊缆力预测应用案例以及曙光XData大数据平台及应用案例。全书提供了大量应用实例,每章后附有习题。 本书适合作为高等院校计算机、软件工程、信息管理等相关专业的本科生及研究生学习大数据技术的教学用书,也可作为相关IT工程技术人员的参考用书。 本书修订由大连交通大学宋旭东担任主编,刘月凡、宋亮、王立娟、李修飞担任副主编,路文静、路旭明、王春爽、于林林参编完成。在本书撰写过程中,陈煜、李帅阳、许翰文等做了大量辅助工作。在此,衷心感谢上述编写参与人员在本书写作过程中的共同努力和辛苦付出! 在本书撰写过程中,参考了大量国内外教材、论文、技术论坛等相关资料,对相应的作者表示感谢。由于作者水平有限,书中不足之处在所难免,敬请广大读者批评指正。 编者 2024年5月 前言(第1版) 随着大数据时代的来临,大数据相关概念和技术被人们广泛关注。目前,大数据已广泛应用在包括科研、交通、通信、医疗、金融、制造、体育、个性化生活、安全等在内的各行各业中,它对人们的思维模式及科学研究方法带来深远影响,已被列为国家重大发展战略。社会各界对具有大数据专业素养的高级人才求贤若渴。鉴于此,国内外一些高校先后开设了“数据科学与大数据”专业,旨在培养一批具备大数据技术的高级人才以满足社会需求。 为满足相关技术人员学习大数据相关技术的需求,我们在总结近几年在大数据技术课程教学经验和项目成果的基础上,同时引入中科曙光XData大数据相关技术及应用案例,从理论结合实践的角度,将大数据基本概念与大数据技术相结合,精心组织设计完成了本书。 本书全面系统地介绍了大数据基础知识和相关技术,全书分为: 大数据基础、大数据存储与管理、大数据采集与预处理、大数据分析与挖掘、大数据平台Hadoop实践与应用案例5篇,共16章,主要内容包括大数据基本概念、大数据存储与管理概念及技术、大数据采集及预处理技术、大数据计算模式、大数据分布式并行处理框架Hadoop、大数据分布式文件系统HDFS、大数据分布式数据库系统HBase、大数据分布式数据仓库系统Hive、大数据MapReduce分布式并行计算模型、大数据Spark内存计算模型、大数据处理基础算法、大数据关联分析、分类、聚类典型数据挖掘算法、大数据Hadoop平台操作实践、大数据预测应用案例分析以及中科曙光XData大数据平台架构、关键技术及其应用案例。全书提供了大量应用实例,每章后附有习题。本书特色在于融会贯通大数据基本概念与大数据技术及应用,很好地将大数据概念、技术及应用融合在一起,便于读者更好地理解大数据基本概念,更快掌握大数据前沿技术及其应用。 第一篇大数据基础: 本篇着重介绍大数据基本概念和大数据Hadoop平台组件,旨在帮助读者正确理解大数据的核心概念及其应用技术,为读者后续章节的学习奠定基础。本篇包括2章: 第1章主要介绍了大数据产生的背景及其发展历程,大数据给我们科学研究及思维模式带来的影响,大数据的4V特征及在科研、交通、通信、医疗、金融、制造、体育、个性化生活、安全等领域的应用。同时也简要介绍了大数据框架体系和关键技术,包括数据采集与预处理技术、数据存储和管理技术、数据分析与挖掘技术、数据可视化技术、数据安全保护技术、云计算、物联网和机器学习等技术。 第2章主要介绍了大数据并行计算框架Hadoop平台,包括Hadoop的项目来源、发展历程、主要用途、分布式存储和并行计算基本原理,以及对Hadoop平台核心组件(HDFS、MapReduce、ZooKeeper、Yarn、HBase、Hive、Spark、Mahout等)的简要描述。 第二篇大数据存储与管理: 本篇着重介绍大数据存储与管理基本概念和常用的大数据分布式文件系统HDFS、大数据分布式数据库系统HBase、大数据分布式数据仓库系统Hive,旨在帮助读者正确理解大数据存储与管理的核心概念及其相关软件技术。本篇包括4章: 第3章主要介绍了大数据存储与管理的基本概念和技术,包括数据管理技术发展回顾,大数据数据类型,大数据分布式系统基础理论,NoSQL数据库的兴起,以及与大数据存储和管理密切相关的分布式存储技术、虚拟化技术和云存储技术。 第4章主要介绍了大数据分布式文件系统HDFS,包括HDFS的设计特点,体系结构和工作组件,阐述了HDFS工作流程,分析了在HDFS下读写数据的过程,围绕HDFS基本操作,详细介绍了HDFS文件操作命令,并对HDFS API主要编程接口进行介绍,给出了编程实例。 第5章主要介绍了大数据分布式数据库系统HBase,重点描述了HBase列式数据库的逻辑模型和物理模型的基本概念,给出了HBase体系结构及其工作原理。结合实例介绍了操作HBase表及其数据的操作命令,并对HBase API主要编程接口进行介绍,给出了编程实例。 第6章主要介绍了大数据分布式数据仓库系统Hive,包括Hive的工作原理和执行流程、Hive的数据类型与数据模型,常用的Hive SQL语句及其操作示例,以及Hive主要访问接口等。 第三篇大数据采集与预处理: 本篇着重介绍大数据采集与预处理技术,对常用大数据采集工具进行了简单介绍。本篇包括2章: 第7章主要介绍了大数据采集与预处理相关技术,包括数据抽取、转换和加载技术,数据爬虫技术、数据清理、数据集成、数据变换和数据归约的方法和技术。 第8章主要介绍了几个常用的大数据采集工具,包括Sqoop关系型大数据采集工具,Flume日志大数据采集工具和分布式大数据Nutch爬虫系统。 第四篇大数据分析与挖掘: 本篇着重介绍了大数据计算模式,大数据MapReduce计算模型,大数据Spark内存计算模型,以及大数据MapReduce基础算法和挖掘算法,旨在帮助读者全面理解大数据分析与挖掘的核心思想与编程技术。本篇包括5章: 第9章主要介绍了5种大数据计算模式,包括大数据批处理、大数据查询分析计算、大数据流计算、大数据迭代计算、大数据图计算。 第10章主要介绍了大数据MapReduce计算模型,包括MapReduce的由来、主要功能、技术特征,MapReduce的模型框架和数据处理过程,MapReduce程序执行过程,以及MapReduce主要编程接口及WordCount实例分析。 第11章主要介绍了大数据Spark计算模型,包括Spark的产生、技术特征,Spark的工作流程与运行模式,以及Spark主要访问接口并给出了三种WordCount编程实现。 第12章主要介绍了大数据MapReduce基础算法,包括关系代数运算的MapReduce设计与实现,矩阵乘法的MapReduce设计与实现。 第13章主要介绍了大数据MapReduce挖掘算法,包括大数据关联规则Apriori算法的MapReduce设计与实现,大数据KNN分类算法的MapReduce设计与实现,大数据KMeans聚类算法的MapReduce设计与实现。 第五篇大数据平台Hadoop实践与应用案例: 本篇着重介绍大数据Hadoop平台的实践操作,给出了大数据技术在开敞式码头系泊缆力预测中的应用,以及中科曙光XData大数据平台架构、关键技术及其应用案例,旨在帮助读者理解如何将大数据的方法和技术运用到实际项目需求中,促进大数据技术在各领域行业中的应用。本篇包括3章: 第14章主要介绍了Hadoop大数据平台操作实践,包括Hadoop系统的安装与配置详细操作,Hadoop平台文件操作及程序运行命令,以及Hadoop平台下程序开发方法和过程。 第15章主要介绍了大数据方法和技术在开敞式码头系泊缆力预测中的应用,给出了大数据系泊缆力相似性查询预测方法,并基于Hadoop大数据平台完成了系泊缆力预测的相似性查询方法MapReduce设计与实现。 第16章主要介绍了中科曙光XData大数据方法的架构及关键技术,包括曙光XData大数据集成与数据治理组件、大数据存储与数据计算组件、大数据分析与数据智能组件、大数据可视化分析组件、大数据安全管控与管理运维组件,并给出了基于曙光XData大数据平台的智能交通应用案例。 本书适合作为高等院校计算机、软件工程、信息管理等相关专业的本科生及研究生大数据技术课程的教材,也可作为相关IT工程技术人员的参考用书。 本书由大连交通大学宋旭东教授担任主编、并辅助全书内容的组织和编审。宋亮、王立娟、张鹏担任副主编。本书第一篇、第四篇、第五篇由宋旭东编写,第二篇由宋亮编写,第7章由王立娟编写,第8章由张鹏编写。在本书撰写过程中,丛郁洋、杨杰、朱大杰等研究生做了大量辅助工作。中科曙光大数据部副总经理郭庆先生、曙光大数据团队工程师参编了第16章工作。张旗教授对全书进行了审阅!在此,衷心感谢上述著作编写参与人员在本书写作过程中的共同努力和辛苦付出!感谢中科曙光公司对本书出版给予的大力支持和帮助! 在本书撰写过程中,参考了大量国内外教材、论文、技术论坛等相关资料。由于作者水平有限,书中不足之处在所难免,敬请广大读者批评指正。 编者 2019年8月
more >