





定价:39元
印次:2-2
ISBN:9787302685371
出版日期:2025.03.01
印刷日期:2025.06.20
图书责编:袁勤勇
图书分类:教材
"本书以某招聘网站中的大数据职位招聘信息为数据源,系统地介绍了使用 Hadoop 生态系统进行大数据离线分析的方法和步骤。全书共6章,分别讲解项目需求、项目架构、项目实现流程、Hadoop集群环境搭建、使用Flume实现数据采集、使用MapReduce实现数据预处理、使用Hive实现数据分析和使用FineBI实现数据可视化。 本书附有配套视频、教学PPT、教学设计等资源。同时,为了帮助初学者更好地学习本书中的内容,还提供了在线答疑,欢迎读者关注。 本书适合作为高等学校的数据科学与大数据技术及相关专业的教材,也适合数据分析、数据可视化、数据仓库等领域的从业者阅读。"
张明强,担任江苏传智播客教育科技股份有限公司教材研发中心教材编辑一职,负责编写大数据技术相关教材和制作教材的配套资源,有多年教育领域相关工作经验,曾编写《大数据项目实战》《Spark项目实战》《NoSQL数据库技术与应用》等大数据技术教材。
前言 党的二十大报告强调“加快发展数字经济,促进数字经济和实体经济深度融合,打造具有国际竞争力的数字产业集群”的重要性。随着云时代的来临,移动互联网、电子商务、物联网及社交媒体快速发展,全球数据正在以几何级速度呈爆发性增长,大数据吸引了越来越多的人关注,此时数据已经成为与物质资产和人力资本同样重要的基础生产要素。 然而,数据的价值不仅与数据的数量有关,更与数据的质量和分析有关。为了从海量的数据中提取有价值的信息,我们需要有效地收集、存储、处理和分析数据,以支持商业决策和社会发展。 本书以某招聘网站中的大数据职位招聘信息为数据源,系统地介绍了使用 Hadoop 生态系统进行大数据离线分析的方法和步骤,适合具备一定数据分析和大数据知识的读者学习。本书共6章,第1章旨在带领读者初步了解项目,包括项目需求、架构、开发流程等内容;第2章详细介绍Hadoop集群环境的搭建;第3章讲解使用Flume进行招聘信息采集的方法;第4章讲解通过MapReduce对采集的招聘信息进行数据预处理;第5章讲解如何利用Hive构建数据仓库,并对经过数据预处理的招聘信息进行分析;第6章讲解如何使用Sqoop将分析结果迁移到MySQL,并通过FineBI实现数据可视化。 在实践的过程中,读者可能会遇到各种问题,这是正常的。建议读者在遇到问题时,不要轻易放弃,而要积极思考,梳理思路,分析问题的原因和解决方案,并在问题解决后,总结经验教训,避免重复错误。 致谢 本书的编写和整理工作由传智教育完成,全体参编人员在编写过程中付出了辛勤的劳动,除此之外还有很多试读人员参与了本书的试读工作并给出了宝贵的...
第1章项目概述1
1.1项目需求和目标1
1.2预备知识2
1.3项目架构2
1.4开发环境和工具3
1.5项目开发流程4
1.6本章小结5
第2章搭建Hadoop集群环境6
2.1基础环境搭建6
2.1.1创建虚拟机6
2.1.2安装Linux操作系统14
2.1.3克隆虚拟机22
2.1.4配置虚拟机25
2.1.5安装JDK37
2.2部署ZooKeeper集群40
2.3部署Hadoop集群45
2.4本章小结57
第3章数据采集58
3.1数据采集概述58
3.2部署Flume59
3.3采集招聘信息62
3.4本章小结66
第4章数据预处理67
4.1数据预处理概述67
4.2招聘信息分析68
4.3设计数据预处理方案69
4.4实现数据预处理69
4.4.1数据预处理环境准备69
4.4.2创建工具类71
4.4.3实现Map过程74
4.4.4实现驱动类75
4.4.5运行MapReduce程序76
4.5本章小结79
第5章数据分析80
5.1数据分析概述80
5.2部署Hive81
5.3数据仓库88
5.3.1数据仓库简介88
5.3.2数据仓库设计89
5.3.3构建数据仓库92
5.4分析招聘信息97
5.4.1分析大数据职位的区域分布97
5.4.2分析大数据职位的薪资区间98
5.4.3分析大数据职位的学历要求99
5.4.4分析大数据职位的职位标签99
5.5本章小结101
第6章数据可视化102
6.1数据可视化概述102
6.2数据... 查看详情
本书以某招聘网站中的大数据职位招聘信息为数据源,系统地介绍了如何使用 Hadoop 生态系统进行大数据离线分析的方法和步骤。全书共6章,分别讲解了项目需求、项目架构、项目实现流程、Hadoop集群环境搭建、使用Flume实现数据采集、使用MapReduce实现数据预处理、使用Hive实现数据分析和使用FineBI实现数据可视化。
本书配套资源丰富,提供配套视频、教学PPT、教学设计等。
本书适合作为高校数据科学与大数据技术及相关专业的教材,也适合数据分析、数据可视化、数据仓库等领域的从业者阅读。
"