图书前言

前言

我们生活在一个充满“数据”的时代,刷微信、聊QQ、网购、旅游、看病等一系列行为无时无刻不在产生新的数据,日积月累形成巨大的数据集,迎来了大数据时代。大数据时代的力量,正在积极地影响着人们生活的方方面面,深刻改变着人类的思维、生产、生活、学习方式,深刻展示了世界发展的前景。

大数据时代,数据的存储与挖掘至关重要。企业在追求高可靠性、高扩展性及高容错性的大数据处理平台的同时还希望能够降低成本,而Hadoop为实现这些需求提供了解决方案。这里列举3条使用Hadoop作为大数据业务的基础原因,具体如下。

(1) Hadoop底层的分布式文件系统具有高拓展性,通过数据冗余保证数据不丢失和提升计算效率,同时可以存储各种格式的数据。它还有多种计算框架,既可以进行离线计算也可以进行在线实时计算。

(2) Hadoop是架构在廉价的硬件服务器上,且产品是开源的,供开发者免费使用,开发成本和维护成本都降低很多。

(3) Hadoop具有成熟的生态圈,有许多辅助系统对数据进行处理。

本书作为大数据技术Hadoop的入门教程,最重要又最难的一件事情就是将一些复杂、难以理解的思想和问题简单化,让初学者能够轻松理解并快速掌握。本教材对每个知识点都进行了深入分析,并针对每个知识点精心设计了相关案例,然后模拟这些知识点在实际工作中的运用,真正做到了知识的讲解由浅入深、由易到难。

全书共分为11章。

第1章主要讲解什么是大数据以及Hadoop相关概念。通过本章的学习,读者可对大数据有简单的认识,并了解Hadoop生态圈工具及各自的用途。

第2章主要讲解Hadoop集群的构建。通过本章的学习,读者能掌握Linux系统网络配置、独立搭建Hadoop开发平台,以及简单操作Hadoop系统。

第3章主要讲解Hadoop分布式文件系统(HDFS)。通过本章的学习,读者可以掌握HDFS的架构和工作原理,并能够通过Shell接口和Java API操作HDFS。

第4章主要讲解MapReduce的相关知识。通过本章的学习,初学者可以了解MapReduce计算框架的思想并且能够使用MapReduce解决实际问题。

第5章主要讲解Zookeeper分布式协调服务。通过本章的学习,读者能够对Zookeeper分布式协调服务有基本的认识,掌握Zookeeper内部运行原理,并会通过Shell和Java API操作Zookeeper。

第6章主要讲解Hadoop 2.0的新特性,包括YARN资源管理框架和HDFS的高可用。其中,YARN作为资源管理框架,读者需要明白它的体系结构和工作流程;HDFS的高可用性能够解决集群的单点故障问题,读者要掌握高可用架构的部署方式,并能独立参考文档搭建高可用的Hadoop集群。

第7章主要讲解Hive的相关知识。读者需要了解Hive架构、数据模型、Hive的安装和管理以及Hive的数据操作。这里建议初学者在学习Hive时多动手操作Hive,通过丰富的案例练习,掌握Hive的使用。 

第8章主要讲解Flume日志采集系统的基本知识。通过本章的学习,读者应该掌握Flume的基本概念、运行机制并且能够掌握Flume的安装配置和基本使用。

第9章主要讲解Azkaban工作流管理器的基本知识。通过本章的学习,读者应该对Azkaban有一定的了解,掌握Azkaban的部署和使用,并能够使用Azkaban进行任务调度管理。

第10章主要讲解Sqoop数据迁移工具的相关知识。通过本章的学习,读者可以掌握Sqoop工作原理,会独立搭建Sqoop工具并且能够使用Sqoop工具完成常用的数据迁移操作。

第11章主要通过开发网站流量日志分析系统来讲解利用Hadoop生态体系的技术解决实际问题。通过本章的学习,读者可以了解大数据系统的架构、数据采集、数据预处理、数据仓库的设计、数据分析、数据导出以及最后可视化处理。读者应该熟练掌握系统架构以及业务流程,熟练使用Hadoop生态体系相关技术。

致谢

本书的编写和整理工作由传智播客教育科技股份有限公司完成,主要参与人员有吕春林、高美云、石荣新、翟振方、文燕等,全体参编人员在这近一年的编写过程中付出了许多辛勤的汗水,在此表示衷心的感谢。

意见反馈

尽管我们尽了最大的努力,但书中难免会有欠妥之处,欢迎各界专家和读者朋友们来信提出宝贵意见,我们将不胜感激。您在阅读本书时,如果发现任何问题或有不认同之处可以通过电子邮件与我们取得联系。

请发送电子邮件至itcast_book@vip.sina.com。

        黑马程序员

2019年3月于北京