清华大学出版社--图书详情

+教师申领样书

首页 > 图书 > 图书详情

Hadoop与Spark入门

无须搭建或者租用大型集群，在一台计算机上，菜鸟也可以开始玩转Hadoop和Spark，熟悉Hadoop和Spark，为实际应用开发做好准备。

作者：覃雄派、陈跃国

丛书名：面向新工科专业建设计算机系列教材

定价：59元

印次：1-2

ISBN：9787302613633

出版日期：2022.11.01

印刷日期：2025.07.21

图书责编：杨帆

图书分类：教材

电子书

在线购买

京东天猫电子书

内容简介

作者简介

前言序言

资源下载

查看详情查看详情查看详情

本书为一本大数据技术的入门书籍，介绍Hadoop大数据平台和Spark大数据平台及相关工具的原理，以及如何进行部署和简单开发。全书包含13章: 第1、2章介绍如何为深入学习Hadoop和Spark做环境准备，包括VMware虚拟机的创建和CentOS操作系统安装。第3～6章介绍Hadoop大数据平台的基本原理，包括HDFS、MapReduce计算模型、HBase数据库，以及Hive数据仓库的原理、部署方法和开发技术。第7～11章介绍Spark大数据平台的基本原理，包括弹性分布式数据集、转换与动作操作、宽依赖与窄依赖、有向无环图表达的作业及其处理过程等，并且介绍了Spark Core、Spark SQL、Spark MLlib、Spark GraphX的部署和开发技术。最后两章介绍了Flume（第12章）和Kafka（第13章）两个工具，Flume用于大量日志的收集和处理，Kafka用于对大量快速到达的数据进行及时、可靠、暂时的存储。本书适合高等院校高年级本科生以及硕士研究生使用，也可以供非计算机专业学生及相关领域技术人员参考。

前言 Hadoop和Spark是两大大数据处理平台，各自形成了完整的生态系统。在相当长的时间内，二者相互共存。本书是一本Hadoop和Spark的入门介绍书籍。针对Hadoop和Spark两个生态系统的主要工具，本书首先介绍其基本原理，然后给出安装部署的详细过程，并且通过对内置实例的分析，帮助读者掌握初步的大数据平台的编程技巧。本书的读者为高等院校高年级本科生、硕士研究生和IT从业者，他们急需一本简洁的手册，帮助他们迅速入门Hadoop和Spark。本书包括13章: 第1、2章介绍VMware与虚拟机、CentOS操作系统安装，第3～6章介绍Hadoop生态系统，第7～11章介绍Spark生态系统，第12、13章介绍两个工具Flume和Kafka。本书对Hadoop和Spark以及相关工具的原理、部署和开发做了详细介绍，使读者可以快速入门。本书引导读者在3台VMware虚拟机上进行实验，虚拟机运行的操作系统是CentOS 7。一般在一台拥有8GB内存的i7笔记本计算机上就可以展开实验，不必依赖更多的硬件，也不用租用云平台上的虚拟机。一生二，二生三，三生万物。在3台虚拟机上进行实验，有利于读者掌握大数据平台的分布式部署(本书不介绍伪分布式部署和单机部署模式)，以及把技能迁移到更大规模的集群上。读者可以按照本书的各个章节，顺序地了解各个工具的基本原理、部署的方法，并且通过实例了解如何进行实际应用开发。读者可以自行下载CentOS安装盘(ISO文件)以及相关软件包，一步步地建立实验环境，进行实验。本书的编写因时间仓促，加之编者水平有限，书...

课件下载

样章下载

暂无网络资源

版权信息

扫描二维码
下载APP了解更多

荐语

查看详情查看详情

第1章VMware与虚拟机1

1.1VMware简介1

1.2VMware的安装2

1.3VMware的网络配置2

1.3.1VMnet0网卡配置2

1.3.2VMnet1网卡配置3

1.3.3VMnet8网卡配置3

1.4Windows环境下对VMnet8的DNS进行配置6

1.5利用管理员权限编辑网卡7

1.6总结7

1.7思考题8

参考文献8

第2章CentOS操作系统安装9

2.1新建VMware虚拟机9

2.2安装CentOS14

2.3配置Yum18

2.4为CentOS安装图形用户界面20

2.5CentOS的网络配置20

2.5.1虚拟机的网络配置20

2.5.2在CentOS操作系统里对网卡进行设置21

2.6Samba配置23

2.7配置SSHD26

2.8重新启动虚拟机需要执行的命令27

2.9思考题28

第3章Hadoop入门29

3.1Hadoop简介29

3.2HDFS30

3.2.1写文件31

3.2.2读文件32

3.2.3Secondary NameNode介绍33

3.3MapReduce工作原理34

3.3.1MapReduce执行引擎35

3.3.2MapReduce计算模型37

3.3.3Hadoop 1.0的应用38

3.4Hadoop生态系统38

3.5Hadoop 2.040

3.5.1Hadoop 1.0的优势和局限40

3.5.2从Hadoop 1.0到Hadoop 2.041

3.5.3YARN原理41

3.5.4YARN的优势43... 查看详情

本书篇幅不长，内容易懂，有利于快速入门。

兼顾原理讲解和具体操作，实践性强，使读者兴趣盎然，更有成就感。

利用虚拟化技术，无须搭建物理集群，在一台计算机上完成分布式部署，万事不求人，玩转Hadoop和Spark。

查看详情

同系列产品

查看详情

关于我们

新闻资讯

服务支持

关于我们

新闻资讯

服务支持

同系列产品