前 言
当今社会,随着信息技术的发展及应用,全球数据呈现出爆发式增长、海量聚集的发展态势。大数据被认为是继信息化和互联网后信息革命的又一次重大飞跃,“跨界、融合、基础、突破”是大数据落地的关键,其在“产业化、行业化、智能化”方面不断赋能实体经济,成为产业关注的重点。“数据驱动”更加深入人心,数据成为新型的生产要素;数据要素市场的培育是重中之重。“数据要素”“数据治理”“数据安全”成为大数据发展的关键词。
大数据产业是以数据采集、交易、存储、加工、分析、服务为主的各类经济活动,包括数据资源建设、大数据软/硬件产品的开发、销售和租赁活动,以及相关信息技术服务。从整体来看,数据资源、基础设施、数据服务、融合应用、安全保障是大数据产业的五大组成部分,形成了完整的大数据产业生态。其中,大数据基础设施建设非常重要,是实施大数据工程项目的根基。本书作者根据20多年的项目开发、实施及高等教育教学经验,以及大数据工程技术项目工作场景、工作任务实施步骤,采用工作手册的形式编写了此书。
本书共分为6个项目,各项目内容如下。
项目1主要介绍了Linux安装环境准备、VMware的安装与配置、CentOS 7的安装与克隆等内容。通过本项目工作任务的实施,读者可以按照任务活动的步骤完成Linux系统的安装与配置。
项目2主要介绍了Linux服务器Hadoop集群基础环境配置、Hadoop集群NameNode单节点的安装与配置、Hadoop集群HDFS HA的安装与配置等内容。通过本项目工作任务的实施,读者可以按照任务活动的步骤及工作任务验证步骤完成Hadoop HDFS高可用集群搭建。
项目3主要介绍了Hadoop集群YARN HA的安装与配置、操作HDFS的常用命令与编程方式、Hadoop集群异常处理与维护等内容。通过本项目工作任务的实施,读者可以按照任务活动的步骤及工作任务验证步骤完成Hadoop YARN高可用集群搭建、集群维护及Java API编程访问Hadoop集群。
项目4主要介绍了HBase的HA搭建、HBase的常用操作、HBase常见异常处理与维护等内容。通过本项目工作任务的实施,读者可以按照任务活动的步骤及工作任务验证步骤完成HBase高可用集群搭建、常用操作及HBase的运行维护。
项目5主要介绍了MySQL数据库安装、Hive的安装与配置、Hive的常用数据操作、Hive常见异常处理与维护等内容。通过本项目工作任务的实施,读者可以按照任务活动的步骤及工作任务验证步骤完成Hive数据仓库工具搭建、操作及常用异常处理与维护。
项目6主要介绍了某电商推荐系统大数据平台Spark的YARN模式集群部署、MongoDB的安装与客户端连接、Kafka集群的安装与配置、Redis的安装与客户端连接、Tomcat服务器的安装与配置等内容。通过本项目工作任务的实施,读者可以按照任务活动的步骤及工作任务验证步骤完成某电商推荐系统大数据平台的搭建。
本书由重庆城市管理职业学院汪忆、王永明、唐倩、陈国丽编著,具体分工为:项目1、项目2、项目3由汪忆编写,项目4、项目5由王永明编写,项目6的工作任务6.1、工作任务6.2、工作任务6.3由唐倩编写,项目6的工作任务6.4、工作任务6.5由陈国丽、胡飞编写,汪忆负责全书的逻辑框架设计与统稿工作,中国电子系统技术有限公司任冬梅、熊小东参与了本书工作任务的制定工作,重庆城市管理职业学院武飞飞、程书红也参与了本书的资料整理工作。同时,本书在编写过程中得到了各位领导及同事的大力支持与帮助,在此表示衷心的感谢!
本书获得教育部教指委全国高等职业院校信息技术课程教学改革研究项目(KT2024233)、重庆市教委科学技术研究项目(KJZD-K202303302、KJQN202403315)及重庆城市管理职业学院教学创新团队项目资助,是其主要的研究成果。
本书在编写过程中参考了一些文献资料,在此向这些文献的作者表示衷心的感谢!虽然我们在编写过程中进行了精心的设计与组织,但限于经验和水平,书中难免存在疏漏和不足之处,恳请广大读者给予批评和指正。
编 者