





作者:张伟洋
定价:99元
印次:1-4
ISBN:9787302618003
出版日期:2022.10.01
印刷日期:2025.01.15
图书责编:王金柱
图书分类:零售
本书以Hadoop 3.x及其周边框架为主线,介绍了整个Hadoop生态系统主流的大数据开发技术。全书共16章,第1章讲解VMware中CentOS 7操作系统的安装;第2章讲解操作系统集群环境的配置;第3~16章讲解Hadoop生态系统各框架HDFS、MapReduce、YARN、ZooKeeper、HBase、Hive、Sqoop和数据实时处理系统Flume、Kafka、Storm、Spark以及分布式搜索系统Elasticsearch等的基础知识、架构原理、集群环境搭建,同时包括常用的Shell命令、API操作、源码剖析,并通过案例演示了各个框架的实际应用。读者即使没有任何大数据基础,通过阅读本书,也可以对照书中的步骤成功搭建属于自己的大数据集群并独立完成项目开发。 本书通俗易懂,内容丰富,适合大数据开发初学者、大数据运维人员以及大数据分析与挖掘的从业者阅读,也可作为培训机构和大专院校大数据专业课程的教学用书。
张伟洋,大数据领域资深专家,拥有多年互联网公司软件研发经验,曾在互联网旅游公司任软件研发事业部经理。先后多次为中国海洋大学、曲阜师范大学、青岛理工大学等高校举行大数据专题讲座,对Hadoop及周边大数据框架ZooKeeper、Hive、HBase、Storm、Spark、Flink等有深入的研究。已出版《Flink大数据分析实战》《Spark大数据分析实战》等图书,公众号 “奋斗在IT” 的创办人。
前 言 当今互联网已进入大数据时代,大数据技术已广泛应用于金融、医疗、教育、电信、政府等领域。各行各业每天都在产生大量的数据,数据计量单位已从B、KB、MB、GB、TB发展到PB、EB、ZB、YB甚至BB、NB、DB。预计未来几年,全球数据将呈爆炸式增长。谷歌、阿里巴巴、百度、京东等互联网公司都急需掌握大数据技术的人才,而大数据相关人才却出现了供不应求的 状况。 Hadoop作为大数据生态系统中的核心框架,专为离线和大规模数据处理而设计。Hadoop的核心组成HDFS为海量数据提供了分布式存储;MapReduce则为海量数据提供了分布式计算。很多互联网公司都使用Hadoop来实现公司的核心业务,例如华为的云计算平台、淘宝的推荐系统等,只要和海量数据相关的领域都有Hadoop的身影。 本书作为Hadoop 3.x及其周边框架的入门书,知识面比较广,涵盖了当前整个Hadoop 3.x生态系统主流的大数据开发技术。内容全面,代码可读性强,以实操为主,理论为辅,一步一步手把手对常用的离线计算以及实时计算等系统进行了深入讲解。 全书共16章,第1章讲解VMware中CentOS 7操作系统的安装;第2章讲解大数据开发之前对操作系统集群环境的配置;第3~16章讲解Hadoop 3.x生态系统各框架HDFS、MapReduce、YARN、ZooKeeper、HBase、Hive、Sqoop和数据实时处理系统Flume、Kafka、Storm、Spark以及分布式搜索系统Elasticsearch等的基础知识、架构原理、集群环境搭建,同时包括常用的Shell命令、API操作、...
第1章 VMware中安装CentOS 1
1.1 下载CentOS 7镜像文件 1
1.2 新建虚拟机 4
1.3 安装操作系统 6
1.4 动手练习 11
第2章 CentOS 7集群环境配置 12
2.1 系统环境配置 12
2.1.1 新建用户 12
2.1.2 修改用户权限 13
2.1.3 关闭防火墙 13
2.1.4 设置固定IP 13
2.1.5 修改主机名 16
2.1.6 新建资源目录 17
2.2 安装JDK 17
2.3 克隆虚拟机 18
2.4 配置主机IP映射 20
2.5 动手练习 21
第3章 Hadoop 22
3.1 Hadoop简介 22
3.1.1 Hadoop生态系统架构 22
3.1.2 Hadoop不同版本架构对比 24
3.2 YARN基本架构及组件 25
3.3 YARN工作流程 27
3.4 配置集群各节点SSH无密钥登录 28
3.4.1 无密钥登录原理 28
3.4.2 无密钥登录操作步骤 29
3.5 搭建Hadoop 3.x分布式集群 31
3.6 动手练习 37
第4章 HDFS 38
4.1 HDFS简介 38
4.1.1 设计目标 38
4.1.2 总体架构 39
4.1.3 主要组件 40
4.1.4 文件读写 42
4.2 HDFS命令行操作 43
4.3 HDFS Web界面操作 46
4.4 HDFS Java API操作 48
4.4.... 查看详情
以Hadoop 3.x及其周边框架为主线,介绍了整个Hadoop生态系统主流的大数据开发技术。
涵盖Hadoop 3.x生态系统各框架HDFS、MapReduce、YARN、ZooKeeper、HBase、Hive、Sqoop和数据实时处理系统Flume、Kafka、Storm、Spark以及分布式搜索系统Elasticsearch等的基础知识、架构原理、集群环境搭建,同时包括常用的Shell命令、API操作、源码剖析,并通过实际案例加深对各个框架的理解与应用。
全书深入浅出,使用了大量直观的易于理解的图示,代码可读性强,即使没有任何大数据基础的读者,也可以对照书中的步骤成功搭建属于自己的大数据集群,通过对本书的学习,读者能够对大数据相关框架迅速理解并掌握,可以熟练使用Hadoop 3.x集成环境进行大数据项目的开发。
为方便读者使用本书,书中还提供了源代码和PPT课件,扫描本书前言中的二维码即可下载,作者还为本书录制了138集教学视频,读者扫描各章的二维码即可直接观看,大幅提高学习效率。
本书适合Hadoop初学者、大数据开发人员、数据分析人员、大数据运维人员以及培训机构和大专院校的学生使用。