首页 > 图书中心 >图书详情
Spark大数据分析技术(Python版·微课版)
作者:曹洁
丛书名:面向新工科专业建设计算机系列教材
定价:59元
印次:1-3
ISBN:9787302625520
出版日期:2023.03.01
印刷日期:2024.07.01
本书系统介绍Spark大数据处理框架。全书共8章,内容包括大数据技术概述、Spark大数据处理框架、Spark RDD编程、Spark SQL结构化数据处理、HBase分布式数据库、Spark Streaming流计算、Spark MLlib机器学习、数据可视化。 本书可作为高等院校计算机科学与技术、信息管理与信息系统、软件工程、数据科学与大数据技术、人工智能等专业的大数据课程教材,也可供从事大数据开发和研究工作的工程师和科技工作者参考。
more >前言 随着数字经济在全球加速推进以及5G、人工智能、自动驾驶、物联网、社交媒体等相关技术的快速发展,大数据已成为国家基础性战略资源,正日益对全球生产、流通、分配、消费活动,以及经济运行机制、社会生活方式和国家治理能力产生重要影响。2020年4月9日,中共中央、国务院发布的《关于构建更加完善的要素市场化配置体制机制的意见》将数据与土地、劳动力、资本、技术并称为五种要素。海量数据隐含的价值得以发掘的关键是处理大数据的大数据技术,大数据技术涉及的知识点非常多,本书从高校各专业对大数据技术需求的实际情况出发,详解阐述最流行的Spark大数据处理框架。 1. 本书编写特色 内容系统全面: 全面介绍Spark 3.2.0的生态组件。 原理浅显易懂: 理论实践结合,案例丰富,注释详尽。 大数据可视化: 介绍了可视化工具WordCloud、PyeCharts、Plotly。 算法代码实现: 使用Python实现书中所有算法。 配套资源丰富: 配有教学课件、数据集和源代码。 2. 本书内容组织 第1章是大数据技术概述,主要包括大数据的基本概念、代表性大数据技术、大数据编程语言。 第2章是Spark大数据处理框架,主要包括Spark概述,Spark运行机制,在VirtualBox上安装Linux集群,Hadoop的安装与配置,Spark的安装及配置,使用PySpark编写Python代码,安装pip工具和一些常用的数据分析库,安装Anaconda和配置Jupyter Notebook。 第3章是Spark RDD编程,主要包括RDD的创建方式,RDD转换操作,RDD行动操作,RDD之间的依赖关系,RDD的持久化,案例实战——Spark RDD实现词频统计,最后给出RDD编程实验。 第4章是Spark SQL结构化数据处理,主要包括Spark SQL概述,创建DataFrame对象的方式,将DataFrame保存为不同格式文件的方式,DataFrame的常用操作,使用Spark SQL读写MySQL数据库,最后给出SQL编程实验。 第5章是HBase分布式数据库,主要包括HBase概述、HBase系统架构和数据访问流程,HBase数据表,HBase安装与配置,HBase的Shell操作,HBase的Java API操作,HBase案例实战和利用Python操作HBase。 第6章是Spark Streaming流计算,主要包括流计算概述,Spark Streaming工作原理,Spark Streaming编程模型,创建DStream和DStream操作。 第7章是Spark MLlib机器学习,主要包括MLlib机器学习库,MLlib基本数据类型,机器学习流水线,基本统计,特征提取、特征转换和选择,分类算法,回归算法,聚类算法和协同过滤推荐算法,最后给出Spark机器学习实验。 第8章是数据可视化,主要包括WordCloud、PyeCharts和Plotly 3个数据可视化工具。 3. 本书适用范围 本书可作为高等院校计算机科学与技术、信息管理与信息系统、软件工程、数据科学与大数据技术、人工智能等相关专业的大数据课程教材,也可供从事大数据开发和研究工作的工程师和科技工作者参考。 本书在编写和出版过程中得到了郑州轻工业大学、清华大学出版社的大力支持和帮助,编者在此表示感谢。 本书在编写过程中参考了大量专业书籍和网络资料,在此向这些作者表示感谢。 限于时间和编者水平,书中难免有不足之处,热切期望得到专家和读者的批评指正。您如果遇到任何问题或有意见、建议,请发送邮件至编者的邮箱1685601418@qq.com。 编者2023年1月于郑州
more >