前言
随着技术的进步,以大数据为基础开发的应用越来越丰富,大数据从科学前沿逐渐深入各行各业。纵观国内外,大数据已经形成产业规模,并上升到国家战略层面,大数据技术和应用呈现纵深发展的趋势。基于大数据的深度学习应用直接引发了新一轮人工智能浪潮的到来。对各行各业的决策者来说,对大数据分析应用的能力已经成为能否成功的关键因素。
对大数据的处理和分析很复杂,需要特殊的技术有效地处理大量复杂多样的数据。本书从大数据分析技术的流程出发,对大数据分析的背景和基础进行阐述。围绕主流大数据处理框架介绍和说明常用大数据分析算法。同时,介绍当前主流深度学习框架,帮助新手从零基础学习大数据技术,并加以应用。此外,还介绍了大数据可视化和分析环境搭建的相关理论和实现,使读者对项目的应用可视化更加得心应手。最后,从大数据技术应用的角度出发,提供了6个大数据项目的应用和具体实现。本书适合作为高等学校计算机类专业本科生、研究生,也可供相关工程技术人员及培训机构的学习使用。
全书共分为11章。
第1章主要介绍大数据的基本概念及其相关技术体系。首先阐述了大数据的起源、4V特性以及其与云计算、人工智能的关系,并探讨了大数据在各行业中的典型应用。接着介绍了大数据分析的技术体系,包括大数据的基础框架、处理过程、应用场景、可视化技术以及大数据安全与治理等内容。通过本章的学习,读者将对大数据的概念、发展及其技术框架有全面的了解,为后续学习奠定基础。
第2章介绍几种当前主流的大数据处理框架。首先详细讲解了Hadoop的起源、架构和核心组件,并探讨了不同版本。然后深入分析Spark处理框架,重点介绍RDD以及Spark的生态系统。接着介绍Storm流处理框架的起源、架构和应用场景,并与Hadoop和Spark进行了对比。最后简要介绍了Oracle、IBM、SAP Hana和Teradata等商业化的大数据处理框架,并进行了横向对比。通过本章的学习,读者将对常见的大数据计算框架及其架构有全面的了解。
第3章介绍大数据分析中的常用算法。首先阐述了数据挖掘与机器学习的基本概念及其联系。接着详细讲解了回归分析和分类分析两种常见的机器学习算法,包括线性回归、逻辑回归、决策树、支持向量机、朴素贝叶斯分类器和Kmeans聚类算法。然后重点介绍了集成学习与深度学习基础,涵盖了卷积神经网络、循环神经网络以及对抗网络的基本框架。最后简要介绍了Mahout和Hive等常用数据分析工具,帮助读者了解大数据分析中的常见工具及其应用。
第4章介绍大数据分析环境的搭建过程。首先介绍了几种主流的大数据分析环境,并讲解了Linux操作系统的安装与配置。接着详细说明了Hadoop集群的配置与部署,包括环境准备、CM安装、CDH配置及常见错误的解决方法。随后介绍了Spark环境的配置过程。最后讲解了数据库与数据存储的配置,特别是Hive数据仓库与HBase数据库的安装与配置,帮助读者顺利搭建大数据分析所需的基础环境。
第5章介绍大数据可视化技术及其在大数据分析中的重要性。首先从大数据可视化的理论基础入手,详细分析了几种常用的可视化技术,包括文本数据可视化、网络数据可视化、时空数据可视化以及多维数据可视化的基本概念和应用。接着介绍了几款主流的大数据可视化工具,如Tableau、ECharts、R语言、GeoFlow等。对于每个工具,提供了其背景、技术概述及具体使用教程,帮助读者理解利用这些工具进行数据可视化操作的方法。
第6章通过一个微博热点与情感分析的实际案例引领读者完成从数据采集到可视化展示的全过程。首先介绍了项目的基本背景,并详细说明了项目的准备工作,包括数据获取、浏览器配置及环境搭建等。接着重点介绍了项目中使用的实时数据处理技术——Spark Streaming。随后展示了项目的可视化流程,涵盖了前后端核心代码、实时数据计算可视化及源数据的异步分析可视化。最后详细讲解了项目的运行流程,确保读者能够顺利复现整个案例。通过学习本章,读者不仅能掌握微博热点分析和情感分析的相关算法(如DBSCAN、DFA、TFIDF和TextRank等),还能理解将数据分析结果进行可视化呈现和应用的方法。
第7章通过基于协同过滤的新闻推荐系统案例引领读者完成一个实际推荐系统项目。首先介绍该项目的基本背景以及推荐系统的应用场景。接着详细阐述了项目的总体设计和流程,包括系统架构、数据流和工作原理。然后深入讲解了协同过滤算法的原理和实现,重点介绍了基于用户浏览喜好和基于标签的推荐算法。最后展示了该项目的具体实现过程,包括关键代码说明和系统界面展示,帮助读者理解项目的整体开发流程和技术细节。
第8章通过电影数据分析与可视化的实战案例引领读者深入了解图神经网络在推荐系统中的应用。首先介绍了数据获取和处理的基本流程,包括数据爬取的技术和数据类型分析。接着详细阐述了数据处理过程中的相关理论和方法,帮助读者理解如何清洗和转换数据,以满足分析需求。随后重点介绍了项目中运用的Embedding技术和图神经网络,具体讲解了归纳协同过滤和图神经网络等技术的理论背景和实现过程。然后介绍了推荐模型的设计、数据集划分、矩阵分解等关键步骤,并通过代码实例演示了如何实现推荐系统。最后结合项目需求,进行了数据可视化的设计与实现,展示了系统的可视化结果,使读者能够更直观地理解分析结果。
第9章介绍基于知识图谱进行人物关系分析的方法,重点讲解了使用Selenium工具获取人物关系数据的过程。首先阐述了Selenium的基本概念和使用方法,帮助读者理解如何进行网页数据爬取。接着介绍了利用pandas进行数据处理的技术,特别是关系对称填补的解决方案。随后详细讲解了如何使用Neo4j数据库进行人物关系的查询与最短关系路径的计算,重点介绍了Neo4j的Cypher查询语言及其应用。最后展示了如何通过多个模块来实现项目的整体复现,包括架构设计、数据集读取、数据向量化、模型构建、训练及分类模型与问答系统的集成等。通过本章的学习,读者可以掌握人物关系分析项目的完整实现流程,具备实际操作的能力。
第10章介绍基于大数据的新闻评论情感分析系统的实战案例。首先阐述了大数据采集的定义、方法及相关平台,阐述了数据采集的技术框架。接着重点介绍了数据采集的技术细节以及使用合适的工具进行数据获取和处理的方法。随后介绍了项目中的核心算法和技术,包括训练集的介绍、数据预处理步骤、TextCNN神经网络的应用以及模型训练的完整流程,帮助读者理解情感分析的技术实现。然后详细讲解了大数据系统的前后端架构,特别是在大数据环境下如何构建后端和前端系统,并展示了实际的系统设计与实现过程。最后通过后端管理界面和前端可视化界面的展示,读者全面了解项目的系统架构和功能实现。通过本章的学习,读者将能够掌握基于大数据的新闻评论情感分析系统的完整实现方法,并能将其应用到实际项目中。
第11章介绍基于深度学习的城市交通统计与预测案例,重点探讨了利用深度学习方法对城市交通数据进行分析与预测的方法。首先阐述了该项目的背景及当前研究现状,以及城市交通数据在深度学习应用中的重要性。接着介绍用于交通预测的数据来源,包括交通卡口的历史数据、出租车GPS数据和路网信息等,详细说明了这些数据的获取方式和处理流程。随后着重描述了为解决城市交通预测问题所采用的深度学习模型和算法,包括Faster RCNN、RNN和LSTM等模型,并深入探讨了这些模型的原理及应用。最后通过实验结果验证了所提方法的有效性,并展望了该项目未来可能的改进方向。本章讲述了一个全面的基于深度学习的城市交通分析框架,帮助读者了解如何将深度学习应用于城市交通数据的预测任务,并为实际应用提供指导。
由于大数据技术发展日新月异,因此本书的写作参考了大量学术论文和技术论坛的文章,详见参考文献,以供读者更深入地追踪细节。编者对这些研究成果的分享表示诚挚的谢意,希望本书的出版对传播他们的成果有所帮助,以为回报。
本书的写作得到了广大同人的支持和帮助。本书的编辑校对得到了高天宇、李俊辉、肖强、贺旭、张家豪、朱佳俊、茅佳棋、张明哲、黄宇靖等研究生的大力帮忙,特此感谢!
本书的出版得到了国家自然科学基金(项目编号: 62366059)和云南省高校数据科学与智能计算重点实验室的支持。
编者2025年1月
