首页 > 图书中心 >图书详情
大数据处理技术概论(微课版)
作者:王宏亮
丛书名:高等院校计算机教育系列教材
定价:49.80元
印次:1-1
ISBN:9787302664284
出版日期:2024.07.01
印刷日期:2024.06.28
大数据处理技术是大数据技术的核心,主要以Hadoop生态系统为依托,实现数据收集、数据存储、数据处理、统计分析、数据挖掘、模型预测、结果呈现等完整的应用过程。《大数据处理技术概论(微课版)》首先通过一个大数据分析案例展示大数据工程全貌,理顺大数据处理技术体系,其次分析Hadoop生态系统中各个组件技术与应用的衔接,最后再以一个完整案例综合印证相关知识、方法和工具。 《大数据处理技术概论(微课版)》面向大学三年级以上学生群体和研究生阶段学生,也可作为从事大数据分析与挖掘、人工智能工程人员的参考书。它对于大数据相关研究和应用的掌握具有科学性和实用性的指导意义。
more >前 言 写作背景 自2014年大数据首次写入政府工作报告起,我国不断出台大数据相关政策,《2022年提升全民数字素养与技能工作要点》更是提出了大数据产业发展的宏伟愿景。 大数据价值创造的关键在于其应用,大数据技术正快速发展成为新一代信息技术,并形成了一种新的服务业态。大数据技术与应用的研究方向是将大数据分析、挖掘、处理、移动开发与架构、软件开发、云计算等前沿技术相结合的“互联网+”前沿科技。 然而,大数据涉及的知识面广泛,生态环境发展迅速。首先需要培养大数据思维,才能有效运用大数据技术服务于各种应用场景。这就需要学习者能够从宏观上构建对大数据生态环境的认知,掌握大数据处理的流程及相关方法和技术。在明确的应用思路引导下,融会贯通这些知识,才能进一步结合大数据应用场景展开研究、应用和探索。 写作思路 针对以上问题,本书立足于“知其然,更要知其所以然”的理念,从大数据典型案例出发,理解大数据应用的目标、过程和技术。本书突出大数据处理的完整过程,强调从大数据应用原理出发,掌握大数据生态环境组件间的依赖关系。首先构建大数据应用工程的宏观视角,继而以大数据核心技术Hadoop贯穿大数据项目的主体实施过程,理顺大数据处理的流程和技术支持,最终拓展Google大数据生态的构建和应用,完成大数据工程实践的指引。特别是单独引入一个大数据分析/挖掘应用案例,验证大数据知识体系的使用,综合培养读者的大数据工程职业技能。同时,提供案例源码,支持学习实践,完成知识与能力的闭环提升。本书力争淡化理论概念,突出实用理解,达到学以致用的目的。 本书内容 本书共分为11章,第1章至第4章构建了一个鲜明的面向问题的大数据工程过程,第5章至第10章详细解析了工程过程中所涉及的大数据生态组件,第11章再次通过一个具体的完整案例,印证大数据处理的相关技术和方法。 第1章“大数据处理技术概述”,从啤酒与尿布案例出发,宏观构建大数据应用场景,本章对大数据处理内容、处理过程、研究方法、处理技术进行宏观刻画和知识体系重构,重点厘清大数据的概念、大数据的主要来源、工作环境、大数据的特点、大数据的四层堆栈式技术架构。这有助于促进对大数据处理流程、大数据分析典型工具、大数据未来发展趋势的理解和掌握,为学习本书的后续内容指明脉络。 第2章“大数据采集及预处理”,详细解析大数据采集的基本概念、技术方法、预处理方法和常用工具。本章沿大数据应用构建的宏观脉络、展开数据采集、HDFS分布式文件系统存储、数据预处理的学习,以特征工程为核心完成数据的准备。 第3章“大数据分析概论”,详细解析大数据分析技术的概念、方法、处理流程、统计分析应用,以及大数据典型分析处理系统的简介,在准备的数据基础上展开数据分析。 第4章“大数据可视化”,详细解析大数据可视化的概念、过程、工具特性,并介绍典型可视化工具Tableau、ECharts的使用。 第5章“Hadoop概论”,深入学习大数据核心技术Hadoop,详细解析Hadoop优势及应用现状、Hadoop的组成与结构,让读者理解其主要核心模块HDFS和MapReduce工作概况、Hadoop的工作原理和实现方法、Yarn资源管理器与Hadoop文件系统。 第6章“Common与Hadoop项目源码结构”,指导Hadoop实践应用,详细解析Common的功能和主要工具包、Hadoop 源码项目结构,示例实现Hadoop环境的创建,并介绍了Hadoop的开源工具。 第7章“MapReduce执行框架与项目源码结构”。深入学习Hadoop核心数据处理流程,详细解析MapReduce工作流程、执行框架、Map与Reduce的原理和任务、源码结构。 第8章“Hadoop数据库访问”,深入实践Hadoop与数据源的访问,详细解析Hadoop分布式数据库集群的由来、NoSQL的产生、特点和基本知识,包括一致性策略、分区与放置策略、复制与容错技术、缓存技术等,以及NoSQL的四种主要分类和典型工具。 第9章“Spark概论”,深入实践Google大数据生态,详细解析Spark的发展与开发语言Scala、Hadoop的局限、Spark的优点、生态系统的组成、模块的概念与应用、应用场景和成功案例。 第10章“云计算与大数据”,深入实践大数据应用环境,详细解析云计算定义、基本特征、服务模式、虚拟化技术、资源池应用原理、部署模式及相关知识、常用的云服务应用,辨析大数据与云计算的相互关系。 第11章“一个离线大数据分析/挖掘案例”,介绍了研发一个以北京某医院的药品销售数据为数据集的大数据分析/挖掘平台的应用案例。案例涵盖了大数据采集、预处理、分析与挖掘、可视化展示、模型预测技术等内容,以项目设计说明书的形式供学习者参考,案例源码见随书所附电子资源。 编者与致谢 本书由辽宁石油化工大学人工智能与软件学院王宏亮主编。辽宁石油化工大学的赵新慧、常东超参与了第2章、第3章的研究或资料整理,并编写了部分内容;李文超、王福威参与了第8章的研究或资料整理以及第11章综合案例的论证指导,并编写了部分内容;石元博、敬博与抚顺职业技术学院(抚顺师专)的仲芷含参与了第4章、第10章的研究或资料整理,并编写了部分内容。 本书的出版得到清华大学出版社的大力支持,在此表示诚挚的感谢。 由于作者的水平有限,书中难免存在疏漏之处,敬请读者批评、指正。 编 者
more >