





定价:59元
印次:1-15
ISBN:9787302524403
出版日期:2019.05.01
印刷日期:2023.01.12
图书责编:袁勤勇
图书分类:教材
本书围绕Hadoop生态圈相关系统介绍大数据处理架构。全书共11章,其中,第1、2章主要带领大家认识Hadoop以及学会搭建Hadoop集群;第3~5章讲解分布式文件系统(HDFS)、分布式计算框架MapReduce以及分布式协调服务;第6章讲解Hadoop 2.0新特性,包含YARN和高可用特性;第7~10章主要讲解Hadoop生态圈的相关辅助系统,包括Hive、Flume、Azkaban和Sqoop;第11章是一个综合项目——网站流量日志数据分析系统,目的是教会大家如何利用Hadoop生态圈技术构建大数据系统架构并进行开发,同时加深对Hadoop技术的理解。 本书附有配套视频、源代码、习题、教学设计、教学课件等资源。同时,为了帮助初学者更好地学习本书中的内容,还提供了在线答疑,欢迎读者关注。 本书可作为高等院校本、专科计算机相关专业,信息管理等相关专业的大数据课程教材,也可供相关技术人员参考,是一本适合广大计算机编程爱好者的优秀读物。
著名IT培训公司传智博客倾情奉献。全面系统地讲解了Hadoop完整的技术体系:基础部署、集群管理、底层设计、项目实战。提供了丰富的范例程序,降低了读者学习大数据技术的门槛。通过本书的学习,读者能够利用Hadoop及其生态系统中的一系列工具进行大数据分析。提供了丰富的配套教学资源,包含精美PPT、教学设计、教学大纲、题库、教学视频等。
前言 我们生活在一个充满“数据”的时代,刷微信、聊QQ、网购、旅游、看病等一系列行为无时无刻不在产生新的数据,日积月累形成巨大的数据集,迎来了大数据时代。大数据时代的力量,正在积极地影响着人们生活的方方面面,深刻改变着人类的思维、生产、生活、学习方式,深刻展示了世界发展的前景。 大数据时代,数据的存储与挖掘至关重要。企业在追求高可靠性、高扩展性及高容错性的大数据处理平台的同时还希望能够降低成本,而Hadoop为实现这些需求提供了解决方案。这里列举3条使用Hadoop作为大数据业务的基础原因,具体如下。 (1) Hadoop底层的分布式文件系统具有高拓展性,通过数据冗余保证数据不丢失和提升计算效率,同时可以存储各种格式的数据。它还有多种计算框架,既可以进行离线计算也可以进行在线实时计算。 (2) Hadoop是架构在廉价的硬件服务器上,且产品是开源的,供开发者免费使用,开发成本和维护成本都降低很多。 (3) Hadoop具有成熟的生态圈,有许多辅助系统对数据进行处理。 本书作为大数据技术Hadoop的入门教程,最重要又最难的一件事情就是将一些复杂、难以理解的思想和问题简单化,让初学者能够轻松理解并快速掌握。本教材对每个知识点都进行了深入分析,并针对每个知识点精心设计了相关案例,然后模拟这些知识点在实际工作中的运用,真正做到了知识的讲解由浅入深、由易到难。 全书共分为11章。 第1章主要讲解什么是大数据以及Hadoop相关概念。通过本章的学习,读者可对大数据有简单的认识,并了解Hadoop生态圈工具及各自的用途。 第2章主要讲解Hadoop集...
第1章初识Hadoop1
1.1大数据概述1
1.1.1什么是大数据1
1.1.2大数据的特征2
1.1.3研究大数据的意义3
1.2大数据的应用场景4
1.2.1医疗行业的应用4
1.2.2金融行业的应用4
1.2.3零售行业的应用5
1.3Hadoop概述6
1.3.1Hadoop的前世今生6
1.3.2Hadoop的优势7
1.3.3Hadoop的生态体系7
1.3.4Hadoop的版本9
1.4本章小结11
1.5课后习题11
第2章搭建Hadoop集群13
2.1安装准备13
2.1.1虚拟机安装13
2.1.2虚拟机克隆22
2.1.3Linux系统网络配置24
2.1.4SSH服务配置29
2.2Hadoop集群搭建31
2.2.1Hadoop集群部署模式32
2.2.2JDK安装32
2.2.3Hadoop安装33
2.2.4Hadoop集群配置35
2.3Hadoop集群测试38
2.3.1格式化文件系统38目录Hadoop大数据技术原理与应用2.3.2启动和关闭Hadoop集群39
2.3.3通过UI查看Hadoop运行状态41
2.4Hadoop集群初体验43
2.5本章小结46
2.6课后习题46
第3章HDFS分布式文件系统48
3.1HDFS的简介48
3.1.1HDFS的演变48
3.1.2HDFS的基本概念50
3.1.3HDFS的特点51
3.2HDFS的架构和原理52
3.2.1HDFS存储架构52
3.2.2HDFS文件读写原理53
3.3HD... 查看详情
全面系统地讲解了Hadoop完整的技术体系:基础部署、集群管理、底层设计、项目实战。
提供了丰富的范例程序,降低了读者学习大数据技术的门槛。通过本书的学习,读者能够利用Hadoop及其生态系统中的一系列工具进行大数据分析。
提供了丰富的配套教学资源,包含精美PPT、教学设计、教学大纲、题库、教学视频等。
查看详情