前 言
随着工业互联网以及先进传感器相关技术的快速发展,工业大数据已在众多行业成为现实。工业大数据一般指由工业设备高速产生的大量多元化时间序列数据,广泛应用于现代工业系统的管理和优化。以美国通用电气公司为例,其已经将工业大数据应用于风电场优化、采矿优化等领域。对于风电场优化,200多台风机上装载的上万个传感器以40ms为周期收集风电场各种特征数据,风电场的监控软件再以1s的时间间隔处理每台风机的200多个标签,为现场运营团队实现了近乎实时的风机健康状况和性能评估;与此同时,风机数据每隔1min就会被传输到远程监控中心,由数据科学家和工程师团队分析单个风机和整个风电场的运行状况,提前预测可能出现的关键故障。采矿优化主要是利用安装在磨矿控制回路上的大量传感器实现实时数据采集,再通过本地分析来优化每个磨矿回路的性能,从而优化矿厂的产量。尽管数据量和分析节拍与风电场不同,但是其分级处理机制和数据处理流程与风电场类似。
交通运输行业的工业大数据分析和前两个领域不同,其基本资产(例如飞机和货车)都处于运动状态,这些移动资产和数据中心之间的大量数据通信往往只在资产到达目的地时发生,这就要求移动资产在运行过程中具有较高的自主处理能力,能够高可靠地预测潜在的重大事件并实时上传,而数据处理和调度中心必须能准确标记正在下载的潜在异常信息并对其进行实时分析,同时规划好整个网络的运输能力。以上这些案例只是工业大数据应用的缩影,工业大数据正在现代工业发展中发挥着越来越重要的作用。
随着“制造强国”“质量强国”等系列国家战略的制定和实施,我国经济正在脱虚向实高质量发展的道路上稳步前行。随着我国工业互联网和传感技术的快速发展,工业大数据也已有相当积累。如何应用好这些大数据服务国家战略是亟须解决的重要问题。以深度学习为代表的机器学习方法近年来在大数据分析中成为主流。众多行业都开始应用机器学习对工业系统大数据进行处理和分析,进而改进现有工作方式和工作流程。以工业产品质量检测与控制为例,最初基于简单的统计分析,后经多年发展,逐渐形成了以统计控制、统计推断为主的质量检测方法。近年来,大量的传感器数据促使机器学习、深度学习等方法得以应用于质检和品控,实现了端到端的智能检测和故障预警。
机器学习与大数据相互依存,犹如一对孪生兄弟。机器学习是处理和分析大数据的主要工具,而大数据给机器学习提供了广泛的应用场景。当前我国工业正处于转型上升期,对工业大数据分析和机器学习方面的人才需求巨大。在这一大的宏观背景下,笔者认为有必要将机器学习的基础知识、基本原理、主要方法和我们多年工业项目实践中积累的大数据和丰富案例进行有机的融合,形成一个整体性的知识框架,并通过出版本教材,培养一批熟悉工业大数据处理和分析的人才,服务我国工业的高质量发展。
本书介绍了机器学习领域的一些重要理论和常用方法,以及现行多数教材尚未明晰的一些关键知识点,同时还给出了这些机器学习方法在工业案例中的应用。全书分为9章。其中第1章为数学基础知识的介绍;第2章为经典机器学习知识的讲解,包括监督学习和无监督学习两部分;第3章为深度学习,介绍了ANN、CNN、RNN、GAN四种神经网络,同时提供了前沿的神经网络阅读材料;第4章为强化学习,包含经典的强化学习理论及深度强化学习,并简要介绍强化学习的一些前沿应用;第5章介绍了数据处理相关知识;第6~9章分别给出了生产系统、能源与电信系统、交通系统以及医疗系统等十余个工业案例。
除第1章数学基础知识以外,每章都提供了案例,或来自于经典算例,如MNIST、CIFAR10数据集,或来自作者科研团队的工业应用实践,如高铁、5G通信等。这些案例已在实际问题基础上做了一定的简化与脱密处理,其中所应用的知识覆盖了日常使用的多种机器学习与数据处理方法,学好这些案例,足以完成大多数的工业大数据分析任务。为了方便读者进行编程学习,书中所有案例都基于Python进行实现,项目代码以二维码的形式在相应章后体现,读者可以根据需要扫码下载和使用。
本书可以作为机械工程、工业工程、电子工程、电气工程等工科专业高年级本科生与研究生相关课程的教学参考书。
本书得以完成,离不开钱敏、郑文强、武慧、夏鑫、张晨、韩特等作出的重要贡献,在此向他们表示衷心感谢。同时感谢华为技术有限公司、清华长庚医院、中广核集团以及西安铁路局等企业为本书提供案例的背景素材或项目支持。
在编写过程中虽然进行了多次审阅检查,但由于编写时间短,涉及案例范围广,且笔者水平有限,因此难免出现错误,敬请读者批评指正。
编者
2023年5月