前 言
大数据发展势头强劲。政策上,国家出台《“十四五”数字经济发展规划》等文件,推动数据要素流通与产业创新,为行业提供制度保障。技术上,我国5G、数据中心等基础设施处于全球领先地位,生成式AI专利占比超60%,人工智能与大数据深度融合,有效提升了数据处理效率。应用上,大数据已广泛渗透至政务、金融、医疗、工业等领域,例如杭州“城市大脑”优化交通,三一重工提升设备管理效率。从机遇来看,大数据行业前景十分广阔,是数字经济的重要驱动力。
本书对大数据相关知识进行了系统的介绍,涵盖大数据基础、大数据存储与管理、大数据处理与分析、大数据应用等内容。通过大量案例深入浅出地介绍了数据平台建设与应用之路。以Why-What-How的思路展开,从0到1介绍知识点,并重点讲述How的过程,同时结合某个场景下的具体案例,以便读者能更好地理解实操过程。
本书共计15章,具体介绍如下。
第1章大数据基础,介绍大数据概述、特点和应用领域,并阐述大数据与云计算、物联网的相互关系。学习本章内容能够帮助读者构建大数据的学习体系。
第2章数据采集方法,介绍大数据处理的基础。通过学习本章内容,读者可以了解大数据和数据源的分类,以及每类数据源的采集方法。
第3章数据预处理,重点介绍了数据清洗技术。通过学习本章内容,读者将掌握如何对采集到的数据进行初步处理,使数据更加可靠,并方便进行后续分析。
第4章主成分分析,主要介绍广泛应用的主成分分析法。通过学习本章内容,读者将掌握分析数据之间的关系,使主成分分析成为读者处理数据的有力工具,同时为其他机器学习的前处理打下基础。
第5章预测分析。通过学习本章内容,读者能够掌握数据挖掘和数据预测的知识。通过本章的学习,读者不仅能够学习基础的线性回归、决策树和神经网络,而且能够逐步掌握预测分析的本领。
第6章集成学习,这是机器学习的热门领域。通过学习本章内容,读者将会对决策树有更深层次的理解。
第7章预测模型评估。通过学习本章内容,读者将了解在建立预测模型之后如何评价模型,掌握机器学习模块的度量标准。
第8章描述性分析。通过学习本章内容,读者将掌握用数据聚合和数据挖掘的方式来探索历史数据。增强对数据的表现、分布、趋势和含义等多维度的理解,最后用一种易于理解的方式来呈现数据挖掘结果。
第9章生存分析。通过学习本章内容,读者将掌握数据时间与数据结果的关系,学会这种将生存时间和生存结果综合起来对数据进行分析的方法。
第10章社交网络分析。通过学习本章内容,读者将会掌握社交网络分析的一些算法,如KNN算法。
第11章数据处理技术。通过学习本章内容,读者将学会对数据进行一些基础的处理,如数据的合并、转换等一系列基础操作,帮助对数据进行进一步处理。
第12章数据分析技术。通过学习本章内容,读者会了解到一些数据分析工具包,如NumPy工具包以及支持向量机。
第13章数据可视化技术。通过学习本章内容,读者将了解数据可视化的过程,通过使用Matplotlib,Mayavi2绘图,使数据分析结果更加直观。
第14章Hadoop生态系统。通过学习本章内容,读者将学会编写分布式并行程序,使其运行于计算机集群上,完成对大量数据的存储及分析。
第15章互联网电商数据应用分析。通过列举的实例,相信读者会对大数据的整体应用产生更深层次的了解及认识。
本书从数据出发,从基础入手,注重理论和实例的阐述,对读者建立数据分析的理论体系有非常好的帮助作用;同时针对不同的读者,层层递进地展开讲解,涵盖了主流大数据的各技术层面的知识。侧重于大数据的实践性技术,能帮助读者快速入门,并通过深入的实践应用,帮助读者体会大数据的技术本质特征,领略大数据技术带来的创新理念,更好地理解和把握信息技术的发展趋势。
本书由华北理工大学的曹福凯、高晶、郑军三位老师编写。由于时间仓促及编者水平有限,书中难免有不足之处,希望广大同行和读者批评指正。
编 者
