首页 > 图书中心 >图书详情

大数据处理技术概论(微课版)

构建大数据应用宏观视角,理顺大数据处理流程和技术支持,拓展大数据生态的构建和应用。资源下载 / 课件下载 含本书教学课件、教学大纲、课后习题参考答案等。

作者:王宏亮
丛书名:高等院校计算机教育系列教材
定价:49.80
印次:1-1
ISBN:9787302664284
出版日期:2024.07.01
印刷日期:2024.06.28

大数据处理技术是大数据技术的核心,主要以Hadoop生态系统为依托,实现数据收集、数据存储、数据处理、统计分析、数据挖掘、模型预测、结果呈现等完整的应用过程。《大数据处理技术概论(微课版)》首先通过一个大数据分析案例展示大数据工程全貌,理顺大数据处理技术体系,其次分析Hadoop生态系统中各个组件技术与应用的衔接,最后再以一个完整案例综合印证相关知识、方法和工具。 《大数据处理技术概论(微课版)》面向大学三年级以上学生群体和研究生阶段学生,也可作为从事大数据分析与挖掘、人工智能工程人员的参考书。它对于大数据相关研究和应用的掌握具有科学性和实用性的指导意义。

more >

前 言 写作背景   自2014年大数据首次写入政府工作报告起,我国不断出台大数据相关政策,《2022年提升全民数字素养与技能工作要点》更是提出了大数据产业发展的宏伟愿景。   大数据价值创造的关键在于其应用,大数据技术正快速发展成为新一代信息技术,并形成了一种新的服务业态。大数据技术与应用的研究方向是将大数据分析、挖掘、处理、移动开发与架构、软件开发、云计算等前沿技术相结合的“互联网+”前沿科技。   然而,大数据涉及的知识面广泛,生态环境发展迅速。首先需要培养大数据思维,才能有效运用大数据技术服务于各种应用场景。这就需要学习者能够从宏观上构建对大数据生态环境的认知,掌握大数据处理的流程及相关方法和技术。在明确的应用思路引导下,融会贯通这些知识,才能进一步结合大数据应用场景展开研究、应用和探索。 写作思路   针对以上问题,本书立足于“知其然,更要知其所以然”的理念,从大数据典型案例出发,理解大数据应用的目标、过程和技术。本书突出大数据处理的完整过程,强调从大数据应用原理出发,掌握大数据生态环境组件间的依赖关系。首先构建大数据应用工程的宏观视角,继而以大数据核心技术Hadoop贯穿大数据项目的主体实施过程,理顺大数据处理的流程和技术支持,最终拓展Google大数据生态的构建和应用,完成大数据工程实践的指引。特别是单独引入一个大数据分析/挖掘应用案例,验证大数据知识体系的使用,综合培养读者的大数据工程职业技能。同时,提供案例源码,支持学习实践,完成知识与能力的闭环提升。本书力争淡化理论概念,突出实用理解,达到学以致用的目的。 本书内容   本书共分为11章,第1章至第4章构建了一个鲜明的面向问题的大数据工程过程,第5章至第10章详细解析了工程过程中所涉及的大数据生态组件,第11章再次通过一个具体的完整案例,印证大数据处理的相关技术和方法。   第1章“大数据处理技术概述”,从啤酒与尿布案例出发,宏观构建大数据应用场景,本章对大数据处理内容、处理过程、研究方法、处理技术进行宏观刻画和知识体系重构,重点厘清大数据的概念、大数据的主要来源、工作环境、大数据的特点、大数据的四层堆栈式技术架构。这有助于促进对大数据处理流程、大数据分析典型工具、大数据未来发展趋势的理解和掌握,为学习本书的后续内容指明脉络。   第2章“大数据采集及预处理”,详细解析大数据采集的基本概念、技术方法、预处理方法和常用工具。本章沿大数据应用构建的宏观脉络、展开数据采集、HDFS分布式文件系统存储、数据预处理的学习,以特征工程为核心完成数据的准备。   第3章“大数据分析概论”,详细解析大数据分析技术的概念、方法、处理流程、统计分析应用,以及大数据典型分析处理系统的简介,在准备的数据基础上展开数据分析。   第4章“大数据可视化”,详细解析大数据可视化的概念、过程、工具特性,并介绍典型可视化工具Tableau、ECharts的使用。   第5章“Hadoop概论”,深入学习大数据核心技术Hadoop,详细解析Hadoop优势及应用现状、Hadoop的组成与结构,让读者理解其主要核心模块HDFS和MapReduce工作概况、Hadoop的工作原理和实现方法、Yarn资源管理器与Hadoop文件系统。   第6章“Common与Hadoop项目源码结构”,指导Hadoop实践应用,详细解析Common的功能和主要工具包、Hadoop 源码项目结构,示例实现Hadoop环境的创建,并介绍了Hadoop的开源工具。   第7章“MapReduce执行框架与项目源码结构”。深入学习Hadoop核心数据处理流程,详细解析MapReduce工作流程、执行框架、Map与Reduce的原理和任务、源码结构。   第8章“Hadoop数据库访问”,深入实践Hadoop与数据源的访问,详细解析Hadoop分布式数据库集群的由来、NoSQL的产生、特点和基本知识,包括一致性策略、分区与放置策略、复制与容错技术、缓存技术等,以及NoSQL的四种主要分类和典型工具。   第9章“Spark概论”,深入实践Google大数据生态,详细解析Spark的发展与开发语言Scala、Hadoop的局限、Spark的优点、生态系统的组成、模块的概念与应用、应用场景和成功案例。   第10章“云计算与大数据”,深入实践大数据应用环境,详细解析云计算定义、基本特征、服务模式、虚拟化技术、资源池应用原理、部署模式及相关知识、常用的云服务应用,辨析大数据与云计算的相互关系。   第11章“一个离线大数据分析/挖掘案例”,介绍了研发一个以北京某医院的药品销售数据为数据集的大数据分析/挖掘平台的应用案例。案例涵盖了大数据采集、预处理、分析与挖掘、可视化展示、模型预测技术等内容,以项目设计说明书的形式供学习者参考,案例源码见随书所附电子资源。 编者与致谢   本书由辽宁石油化工大学人工智能与软件学院王宏亮主编。辽宁石油化工大学的赵新慧、常东超参与了第2章、第3章的研究或资料整理,并编写了部分内容;李文超、王福威参与了第8章的研究或资料整理以及第11章综合案例的论证指导,并编写了部分内容;石元博、敬博与抚顺职业技术学院(抚顺师专)的仲芷含参与了第4章、第10章的研究或资料整理,并编写了部分内容。   本书的出版得到清华大学出版社的大力支持,在此表示诚挚的感谢。   由于作者的水平有限,书中难免存在疏漏之处,敬请读者批评、指正。         编 者                           

more >
扫描二维码
下载APP了解更多

同系列产品more >

MATLAB机器学习实用教程

由伟
定 价:59元

查看详情
HTML 5+CSS+JavaScript网页设计制...

彭进香、孟繁军、王华荣
定 价:48元

查看详情
计算机科学导论(第7版)(微课版)

瞿中、高新波、熊安萍
定 价:59.60元

查看详情
高级语言程序设计(微课版)

李益才、鲁云平、王家伟
定 价:59元

查看详情
软件项目综合实践教程----C/C++篇...

梁新元、杨永斌、朱超平
定 价:59元

查看详情
图书分类全部图书
more >
  • 王宏亮,辽宁石油化工大学人工智能能与软件学院软件工程系副教授,企业管理博士,长期从事课程与科研、职业培训等领域的研究与教学工作。先后主持辽宁省自然科学基金项目一项,辽宁省教育厅一般科学研究项目一项,辽宁省教育科学规划项目两项,发表在《计算机集成制造系统》等杂志的EI论文多篇,主编出版教材1部,副主编出版译著1部、教材2部,参编多部。

  • "《大数据处理技术概论(微课版)》立足“知其然,更要知其所以然”理念,从大数据典型案例出发理解案例应用的目标、过程和技术,强调从大数据应用原理出发掌握大数据环境间的依赖关系,首先构建大数据工程宏观视角,继而由大数据核心技术Hadoop贯穿大数据项目的主体实施过程,理顺大数据处理的流程和技术支持,最终拓展Google大数据生态的构建和应用,完成大数据工程实践的指引。核心思路是以明确的知识主线引领和融汇学习者知识体系,促进知识重构的展开,力争淡化理论概念而突出实用理解,达到学以致用的目的。
    "

more >
  • 目    录

    第1章  大数据处理技术概述 1

    1.1  对大数据的认知 1

    1.1.1  从数据分析决策认识大数据

    ——啤酒与尿布案例 1

    1.1.2  大数据的概念与发展 5

    1.2  大数据技术与大数据处理技术 7

    1.2.1  大数据技术架构 7

    1.2.2  大数据处理技术 9

    1.2.3  大数据处理流程 11

    1.2.4  大数据技术生态 12

    1.3  大数据处理技术构成 13

    1.4  大数据分析的4种典型工具 15

    1.5  大数据应用的未来发展趋势 16

    课后练习题 16

    第2章  大数据采集及预处理 18

    2.1  大数据采集 18

    2.1.1  大数据采集的概念 18

    2.1.2  数据的分类 19

    2.1.3  数据的来源 19

    2.1.4  大数据采集方法分类 20

    2.1.5  大数据采集的技术方法 20

    2.2  数据存储——HDFS与CSV 21

    2.2.1  分布式文件系统HDFS 21

    2.2.2  HDFS文件转换 23

    2.2.3  HDFS文件系统读写原理 27

    2.2.4  CSV文件 28

    2.3  大数据预处理 30

    2.4  特征工程 32

    2.4.1  特征工程的定义 33

    2.4.2  特征工程处理流程 33

    2.5  大数据采集及预处理主要工具示例 39

    课后练习题 40

    第3章  大数据分析概论 41

    3.1  大数据分析的概念与方法 41

    3.2  大数据分析流程 42

    3.2.1  数据理解与提出问题 43

    3.2.2  数据统计分析与...

精彩书评more >

标题

评论

版权所有(C)2023 清华大学出版社有限公司 京ICP备10035462号 京公网安备11010802042911号

联系我们 | 网站地图 | 法律声明 | 友情链接 | 盗版举报 | 人才招聘