前言
随着大数据时代的到来,许多企业和组织都越来越重视大数据技术,尤其是我国已将大数据技术上升到国家战略层面,更多的企业都在大数据技术的平台建设、解决方案等领域花费了很多精力开展研究,并加大人才培养的力度。
广东轩辕网络科技股份有限公司近几年致力于云计算、大数据领域的服务研究,并在云计算、大数据等领域积极与高校开展产学研合作,进行协同育人工作,并取得了较好的成效。该公司在充分调研市场的基础上组织专家进行充分论证,提出了“数据科学与大数据技术”应用型本科人才培养方案,并将培养目标明确定位为: 掌握数据科学的基础知识、理论及技术,包括面向大数据应用的数学、统计、计算机等学科基础知识,数据建模、高效分析与处理,统计学推断的基本理论、基本方法和基本技能。重点培养具有以下三方面素质的人才: 一是工具的掌握,掌握数据采集和数据分析的基本工具的使用;二是数据分析能力,拥有实用数据分析和初步数据建模能力;三是应用性,主要是利用大数据的方法解决实际问题的能力。
在此基础上设计了专业课程体系,将“Hadoop大数据开发技术”定位为一门重要的专业选修课。本课程的目标是: 依据业务或产品应用需求,运用大数据平台及相关组件进行技术开发,搭建大数据应用平台以及开发应用程序。学习本书的内容后,读者应掌握Hadoop数据操作的API(主要是Java API),熟悉大数据的分析和使用方法(Spark和MapReduce技术),搭建大数据应用平台以及开发应用程序,熟悉工具、算法、编程、优化以及部署不同的MapReduce,研发各种基于大数据技术的应用程序及行业解决方案。
编者在研究了现有大数据开发以及Hadoop平台资料的基础上,展开了本书的编写工作。本书首先介绍相关平台的构建。Hadoop是基于Linux平台运行的,因此本书首先介绍Linux操作系统和Hadoop平台的搭建方法。然后,本书根据Hadoop系统的组成及生态,分别介绍HDFS、MapReduce、YARN、Spark、HBase、Hive等技术。由于在Hadoop应用中shell命令十分重要,API编程是重点和难点,因此每部分都通过具体案例讲述shell命令的应用方法,通过实例介绍相关技术的编程方法。最后,本书介绍大数据应用开发综合实例。
本书分为三篇: 第1篇(第1~6章)主要介绍大数据开发技术平台Hadoop,分为6章介绍Hadoop各部分的主要技术及其应用,包括Hadoop架构及组成、平台搭建、HDFS、YARN、MapReduce等内容;第2篇(第7~9章)介绍Hadoop家族的其他几个重要项目,这些都与基本的大数据开发应用紧密相关,包括数据库HBase、数据仓库Hive、快速通用计算引擎Spark;第3篇(第10~12章)介绍大数据应用开发综合实例,包括编程环境与数据准备、大数据分析与数据可视化、“电影推荐”的具体实施方法。
本书由广东科技学院申时全教授和东莞理工学院城市学院陈强副教授负责统稿并担任主编,由杨胜利、黎学军、姜荣正、邱林润老师担任副主编,并承担部分章节的编写工作。其中,第1~3章由申时全编写,第4章和第9章由黎学军编写,第5章和第6章由杨胜利编写,第7章和第8章由陈强编写,第10~12章由邱林润和姜荣正编写。
在本书的编写过程中,得到了广东轩辕网络科技股份有限公司和本丛书编委会专家的大力支持。厦门大学林子雨老师担任主审,并对本书的编写提出了许多很好的建议,在此深表感谢。
编者2020年10月