首页 > 图书中心 >图书详情
Hadoop与Spark入门
作者:覃雄派、陈跃国
定价:59元
印次:1-1
ISBN:9787302613633
出版日期:2022.11.01
印刷日期:2022.11.09
本书为一本大数据技术的入门书籍,介绍Hadoop大数据平台和Spark大数据平台及相关工具的原理,以及如何进行部署和简单开发。 全书包含13章: 第1、2章介绍如何为深入学习Hadoop和Spark做环境准备,包括VMware虚拟机的创建和CentOS操作系统安装。第3~6章介绍Hadoop大数据平台的基本原理,包括HDFS、MapReduce计算模型、HBase数据库,以及Hive数据仓库的原理、部署方法和开发技术。第7~11章介绍Spark大数据平台的基本原理,包括弹性分布式数据集、转换与动作操作、宽依赖与窄依赖、有向无环图表达的作业及其处理过程等,并且介绍了Spark Core、Spark SQL、Spark MLlib、Spark GraphX的部署和开发技术。最后两章介绍了Flume(第12章)和Kafka(第13章)两个工具,Flume用于大量日志的收集和处理,Kafka用于对大量快速到达的数据进行及时、可靠、暂时的存储。 本书适合高等院校高年级本科生以及硕士研究生使用,也可以供非计算机专业学生及相关领域技术人员参考。
more >前言 Hadoop和Spark是两大大数据处理平台,各自形成了完整的生态系统。在相当长的时间内,二者相互共存。 本书是一本Hadoop和Spark的入门介绍书籍。 针对Hadoop和Spark两个生态系统的主要工具,本书首先介绍其基本原理,然后给出安装部署的详细过程,并且通过对内置实例的分析,帮助读者掌握初步的大数据平台的编程技巧。 本书的读者为高等院校高年级本科生、硕士研究生和IT从业者,他们急需一本简洁的手册,帮助他们迅速入门Hadoop和Spark。 本书包括13章: 第1、2章介绍VMware与虚拟机、CentOS操作系统安装,第3~6章介绍Hadoop生态系统,第7~11章介绍Spark生态系统,第12、13章介绍两个工具Flume和Kafka。本书对Hadoop和Spark以及相关工具的原理、部署和开发做了详细介绍,使读者可以快速入门。 本书引导读者在3台VMware虚拟机上进行实验,虚拟机运行的操作系统是CentOS 7。一般在一台拥有8GB内存的i7笔记本计算机上就可以展开实验,不必依赖更多的硬件,也不用租用云平台上的虚拟机。 一生二,二生三,三生万物。在3台虚拟机上进行实验,有利于读者掌握大数据平台的分布式部署(本书不介绍伪分布式部署和单机部署模式),以及把技能迁移到更大规模的集群上。 读者可以按照本书的各个章节,顺序地了解各个工具的基本原理、部署的方法,并且通过实例了解如何进行实际应用开发。 读者可以自行下载CentOS安装盘(ISO文件)以及相关软件包,一步步地建立实验环境,进行实验。 本书的编写因时间仓促,加之编者水平有限,书中难免有疏漏和不足之处,在此恳请专家和广大读者批评指正! 编者2022.9
more >