首页 > 图书中心 >图书详情

Spark大数据分析技术(Python版·微课版)

学习Spark非常适用的教材,案例丰富,操作性强。提供课件、大纲、源码,咨询QQ:2301891038(仅限教师)。

作者:曹洁
丛书名:面向新工科专业建设计算机系列教材
定价:59
印次:1-3
ISBN:9787302625520
出版日期:2023.03.01
印刷日期:2024.07.01

本书系统介绍Spark大数据处理框架。全书共8章,内容包括大数据技术概述、Spark大数据处理框架、Spark RDD编程、Spark SQL结构化数据处理、HBase分布式数据库、Spark Streaming流计算、Spark MLlib机器学习、数据可视化。 本书可作为高等院校计算机科学与技术、信息管理与信息系统、软件工程、数据科学与大数据技术、人工智能等专业的大数据课程教材,也可供从事大数据开发和研究工作的工程师和科技工作者参考。

more >

前言 随着数字经济在全球加速推进以及5G、人工智能、自动驾驶、物联网、社交媒体等相关技术的快速发展,大数据已成为国家基础性战略资源,正日益对全球生产、流通、分配、消费活动,以及经济运行机制、社会生活方式和国家治理能力产生重要影响。2020年4月9日,中共中央、国务院发布的《关于构建更加完善的要素市场化配置体制机制的意见》将数据与土地、劳动力、资本、技术并称为五种要素。海量数据隐含的价值得以发掘的关键是处理大数据的大数据技术,大数据技术涉及的知识点非常多,本书从高校各专业对大数据技术需求的实际情况出发,详解阐述最流行的Spark大数据处理框架。 1. 本书编写特色 内容系统全面: 全面介绍Spark 3.2.0的生态组件。 原理浅显易懂: 理论实践结合,案例丰富,注释详尽。 大数据可视化: 介绍了可视化工具WordCloud、PyeCharts、Plotly。 算法代码实现: 使用Python实现书中所有算法。 配套资源丰富: 配有教学课件、数据集和源代码。 2. 本书内容组织 第1章是大数据技术概述,主要包括大数据的基本概念、代表性大数据技术、大数据编程语言。 第2章是Spark大数据处理框架,主要包括Spark概述,Spark运行机制,在VirtualBox上安装Linux集群,Hadoop的安装与配置,Spark的安装及配置,使用PySpark编写Python代码,安装pip工具和一些常用的数据分析库,安装Anaconda和配置Jupyter Notebook。 第3章是Spark RDD编程,主要包括RDD的创建方式,RDD转换操作,RDD行动操作,RDD之间的依赖关系,RDD的持久化,案例实战——Spark RDD实现词频统计,最后给出RDD编程实验。 第4章是Spark SQL结构化数据处理,主要包括Spark SQL概述,创建DataFrame对象的方式,将DataFrame保存为不同格式文件的方式,DataFrame的常用操作,使用Spark SQL读写MySQL数据库,最后给出SQL编程实验。 第5章是HBase分布式数据库,主要包括HBase概述、HBase系统架构和数据访问流程,HBase数据表,HBase安装与配置,HBase的Shell操作,HBase的Java API操作,HBase案例实战和利用Python操作HBase。 第6章是Spark Streaming流计算,主要包括流计算概述,Spark Streaming工作原理,Spark Streaming编程模型,创建DStream和DStream操作。 第7章是Spark MLlib机器学习,主要包括MLlib机器学习库,MLlib基本数据类型,机器学习流水线,基本统计,特征提取、特征转换和选择,分类算法,回归算法,聚类算法和协同过滤推荐算法,最后给出Spark机器学习实验。 第8章是数据可视化,主要包括WordCloud、PyeCharts和Plotly 3个数据可视化工具。 3. 本书适用范围 本书可作为高等院校计算机科学与技术、信息管理与信息系统、软件工程、数据科学与大数据技术、人工智能等相关专业的大数据课程教材,也可供从事大数据开发和研究工作的工程师和科技工作者参考。 本书在编写和出版过程中得到了郑州轻工业大学、清华大学出版社的大力支持和帮助,编者在此表示感谢。 本书在编写过程中参考了大量专业书籍和网络资料,在此向这些作者表示感谢。 限于时间和编者水平,书中难免有不足之处,热切期望得到专家和读者的批评指正。您如果遇到任何问题或有意见、建议,请发送邮件至编者的邮箱1685601418@qq.com。 编者2023年1月于郑州

more >
扫描二维码
下载APP了解更多

同系列产品more >

并行程序设计

刘轶、杨海龙
定 价:69元

查看详情
Linux操作系统基础——面向人工智...

曹洁,张志锋,冯柳
定 价:59元

查看详情
人工智能应用的数学基础(微课版)

刘帅 付维娜 代建华
定 价:69元

查看详情
信息检索与搜索引擎(微课版)

闫琰、班晓娟、刘煜豪
定 价:49元

查看详情
算法设计与问题求解(第2版·微课版)...

邓泽林、李峰
定 价:59元

查看详情
图书分类全部图书
more >
  • "内容系统全面:全面介绍Spark3.2.0的生态组件。
    原理浅显易懂:理论实践结合案例丰富注释详尽。
    大数据可视化:WordCloud、PyeCharts、Plotly。
    算法代码实现:使用Python实现书中所有算法。
    配套资源丰富:配有教学课件、数据集和源代码。
    "

more >
  • 目录

    第1章大数据技术概述1

    1.1大数据的基本概念1

    1.1.1大数据的定义1

    1.1.2大数据的特征1

    1.1.3大数据思维2

    1.2代表性大数据技术3

    1.2.1Hadoop3

    1.2.2Spark5

    1.2.3Flink5

    1.3大数据编程语言5

    1.4在线资源5

    1.5拓展阅读——三次信息化浪潮的启示6

    1.6习题6

    第2章Spark大数据处理框架7

    2.1Spark概述7

    2.1.1Spark的产生背景7

    2.1.2Spark的优点8

    2.1.3Spark的应用场景9

    2.1.4Spark的生态系统9

    2.2Spark运行机制10

    2.2.1Spark基本概念10

    2.2.2Spark运行架构12

    2.3在VirtualBox上安装Linux集群13

    2.3.1Master节点的安装13

    2.3.2虚拟机克隆安装Slave1节点22

    2.4Hadoop安装前的准备工作26

    2.4.1创建hadoop用户和更新APT262.4.2安装SSH、配置SSH无密码登录27

    2.4.3安装Java环境28

    2.4.4Linux系统下Scala版本的Eclipse的安装与配置29

    2.4.5Eclipse环境下Java程序开发实例30

    2.5Hadoop的安装与配置32

    2.5.1下载Hadoop安装文件32

    2.5.2Hadoop单机模式配置33

    2.5.3Hadoop伪分布式模式配置35

    2.5.4Hadoop分布式模式配置40

    2.6Spark的安装与配置49

    2.6.1下载Spark安装文件4...

精彩书评more >

标题

评论

版权所有(C)2023 清华大学出版社有限公司 京ICP备10035462号 京公网安备11010802042911号

联系我们 | 网站地图 | 法律声明 | 友情链接 | 盗版举报 | 人才招聘