Spark项目实训(Python版)
"项目驱动学习,动手操作提升大数据技能 从零到一,逐步引导读者完成项目的开发 易懂的教程,让读者能够清楚地理解每个步骤的原理 教材、资源、服务三合一"。提供课件、源码、大纲

作者:黑马程序员

丛书名:大数据技术与应用丛书

定价:39元

印次:1-1

ISBN:9787302685302

出版日期:2025.03.01

印刷日期:2025.03.10

图书责编:袁勤勇

图书分类:教材

电子书
在线购买
分享
内容简介
作者简介
前言序言
资源下载
查看详情 查看详情 查看详情

"本书以电商网站中的用户行为数据作为数据源,系统介绍了使用Spark生态系统进行离线分析和实时分析的方法。全书共6章,分别讲解了项目概述、搭建集群环境、使用Flume实现数据采集、使用Hive构建数据仓库、使用Spark进行数据分析以及使用FineBI实现数据可视化。 本书附有教学PPT、教学设计等资源,同时,为了帮助初学者更好地学习书中内容,还提供了在线答疑,欢迎读者关注。 本书适合作为高等学校数据科学与大数据技术及相关专业的教材,也适合数据分析、数据可视化等领域的从业者阅读。"

张明强,担任江苏传智播客教育科技股份有限公司教材研发中心教材编辑一职,负责编写大数据技术相关教材和制作教材的配套资源,有多年教育领域相关工作经验,曾编写《大数据项目实战》《Flinke基础入门》《Hive数据仓库》《Hbase基础入门》等大数据技术教材。

前言 党的二十大报告强调了“加快发展数字经济,促进数字经济和实体经济深度融合,打造具有国际竞争力的数字产业集群”的重要性。随着云计算、移动互联网、电子商务、物联网和社交媒体的蓬勃发展,全球数据正以惊人的速度呈指数级增长,大数据已成为与物质资产和人力资本同等重要的战略资源。 然而,数据的价值不仅取决于数量,更取决于质量和分析能力。要从海量数据中挖掘出真正的价值,需要构建高效的数据采集、存储、处理和分析体系,为商业决策和社会发展提供有力支撑。 本书以电商网站用户行为数据为基础,系统讲解利用Spark生态系统进行离线分析和实时分析的方法,适合具备一定数据分析知识和大数据基础的读者学习。本书共6章,具体如下。 第1章带领读者初步了解项目背景、核心需求、技术架构及开发流程。 第2章详细介绍基于Linux操作系统搭建集群环境,包括Hadoop、Hive、Flume、Kafka、Spark等。 第3章讲解通过配置Flume的采集方案实现历史和实时用户行为数据的采集。 第4章讲解基于Hive构建数据仓库。 第5章讲解运用Spark SQL、Structured Streaming等组件对用户行为数据进行离线与实时分析。 第6章讲解在FineBI中通过Doris获取Hive的数据进行数据可视化。 在实践的过程中,读者可能会遇到各种问题,这是正常的。建议读者遇到问题时不要轻易放弃,而要积极思考,梳理思路,分析问题的原因和解决方案,并在问题解决后总结经验教训,避免重复错误。 本书配套服务 为了提升您的学习或教学体验,我们精心为本书配备了丰富的数字化资源和服务,包括...

目录
荐语
查看详情 查看详情
目录

第1章项目概述1

1.1项目需求和目标1

1.2预备知识2

1.3项目架构3

1.4开发环境和工具3

1.5项目开发流程5

1.6本章小结6

第2章搭建集群环境7

2.1基础环境搭建7

2.1.1创建虚拟机7

2.1.2安装Linux操作系统15

2.1.3克隆虚拟机23

2.1.4配置虚拟机26

2.2安装JDK38

2.3部署Hadoop集群42

2.4部署Hive50

2.5部署Flume56

2.6部署ZooKeeper集群57

2.7部署Kafka集群61

2.8部署Spark64

2.9部署Doris集群67

2.10本章小结74

第3章数据采集75

3.1用户行为数据概述75

3.2模拟生成用户行为数据76

3.2.1生成历史用户行为数据77

3.2.2生成实时用户行为数据82

3.3配置采集方案83

3.4采集用户行为数据87

3.5本章小结91

第4章数据仓库92

4.1 数据仓库设计92

4.2构建数据仓库96

4.3向数据仓库加载数据100

4.3.1向ODS层的表加载数据101

4.3.2向DWD层的表加载数据103

4.4本章小结112

第5章数据分析113

5.1流量分析113

5.2商品分析119

5.3设备分析123

5.4推荐系统127

5.5地域分析133

5.6本章小结138

第6章数据可视化139

6.1Doris集成Hive139

6.2FineBI的安装与配置143

6.3实现数据可视化152

6.3.1新建数据集152

... 查看详情

"本书为传智播客公司大数据系列中的一本,全书内容完整,结构清晰,条理分明,术语规范,描述流畅,质量较好。本书以电商网站中的用户行为数据作为数据源,系统地介绍了如何使用 Spark生态系统进行离线分析和实时分析的方法。全书共6章,分别讲解了项目概述、集群环境搭建、使用Flume实现数据采集、使用Hive构建数据仓库、使用Spark进行数据分析以及使用FineBI实现数据可视化。本书有较高的知识性、科学性和实用性,出版价值较高。本书附有配套视频、教学PPT、教学设计等资源,同时,为了帮助初学者更好地学习本书中的内容,还提供了在线答疑,欢迎读者关注。
"

查看详情