总 序
短短几年间,大数据的发展速度一日千里,快速走过了从概念到落地的进程,直接带动了相关产业的井喷式发展。全球研究机构统计数据显示,大数据产业将迎来发展黄金期:根据 IDC 数据,2020—2024 年全球大数据市场规模在 5 年内约实现 10.4%的复合增长率,预计 2024 年全球大数据市场规模约为 2983 亿美元。
数据采集、数据存储、数据挖掘、数据分析等大数据技术在越来越多的行业中得到了应用,随之而来的就是大数据人才问题。麦肯锡预测,每年数据科学专业的应届毕业生将增加 7%,然而仅高质量项目对专业数据科学家的需求每年就会增加 12%,供不应求。根据相关报道,未来 3~5 年,中国需要 180 万数据人才,但目前只有约 30 万人, 人才缺口近 150 万人。
以贵州大学为例,其首届大数据专业研究生就业率达到 100%,可以说被“一抢而空”。急切的人才需求直接催热了大数据专业,教育部正式设立“数据科学与大数据技术”本科专业。
不过,就目前而言,在大数据人才培养和大数据课程建设方面,大部分高校仍然处于起步阶段,需要探索的问题还很多。首先,大数据是个新生事物,懂大数据的老师少之又少,院校缺“人”;其次,尚未形成完善的大数据人才培养和课程体系,院校缺“机制”;再次,大数据实验需要为每个学生提供集群计算机,院校缺“机器”;最后,院校没有海量数据,开展大数据教学科研工作缺少“原材料”。
其实,早在网格计算和云计算兴起时,我国科技工作者就遇到过类似的挑战,我有幸参与了这些问题的解决过程。为了解决网格计算问题,我在清华大学读博期间,于 2001年创办了中国网格信息中转站网站,每天花几个小时收集有价值的资料并分享给学术界,此后我也多次筹办和主持全国性的网格计算学术会议,进行信息传递与知识分享。2002 年,我与其他专家合作完成的《网格计算》教材也正式面世。
2008年,当云计算开始萌芽时,我创办了中国云计算网站(目前更名为“云计算世界”);2010年我的《云计算》一书问世;2011年和2015年,我分别修订了《云计算》的第 2 版和第3版,每一版都花费了大量的制作成本,我还免费分享对应的教学 PPT。目前,《云计算》一书已成为国内高校优先选择的优秀教材,2010—2014年,该书在中国知网公布的高被引图书名单中,位居自动化和计算机领域第一位。
除了资料分享,在2010年,我们在南京组织了全国高校云计算师资培训班,培养了国内第一批云计算老师,并通过与华为、中兴、奇虎360等知名企业合作,输出云计算技术,培养云计算研发人才。这些工作获得了大家的认可与好评,此后我也担任了工业和信息化部云计算研究中心专家、中国云计算专家委员会云存储组组长、第 45 届世界技能大赛中国区云计算选拔赛裁判长/专家指导组组长、中国信息协会教育分会人工智能教育专家委员会主任、教育部全国普通高校毕业生就业创业指导委员会委员等。
近年来,面对日益突出的大数据发展难题,我们也正在尝试使用此前类似的办法应对这些挑战。为了解决大数据技术资料缺乏和交流不够通透的问题,我于 2013 年创办了中国大数据网站(目前更名为“大数据世界”),投入了大量的人力进行日常维护。
为了解决大数据师资匮乏的问题,我们面向全国院校陆续举办多期大数据师资培训 班,致力于解决“人”的问题。至今,我们已举办上百场线上线下培训,并入选“教育部第四批职业教育培训评价组织”,被教育部学校规划建设发展中心认定为“大数据与人工智能智慧学习工场”,被工业和信息化部教育与考试中心授权为“工业和信息化人才培养工程培训基地”。
此外,我们开发的云计算、大数据、人工智能实验实训平台被多个赛事选为竞赛平台,也为越来越多的高校教学科研带去便利。其中,大数据实验平台致力于解决大数据实验“缺机器”与“缺原材料”的问题。2016 年,我带领云创大数据的研发人员应用Docker 容器技术,成功开发了 BDRack 大数据实验一体机,它打破了虚拟化技术的性能瓶颈,可虚拟出 Hadoop 集群、Spark 集群、Storm 集群等,自带实验所需数据,并配备了详细的实验手册、PPT 和实验过程视频,可开展大数据管理、大数据挖掘等各类实验,并可进行精确营销、信用分析等多种实战演练。
在大数据教学中,本科院校的实践教学应更具系统性,偏向新技术应用,且对工程实践能力要求更高;而高职高专院校更偏向技术性和技能训练,理论以够用为主,学生将主要从事数据清洗和运维方面的工作。基于此,我们联合多所院校的专家有针对性地准备了“高级大数据人才培养丛书”和“大数据应用人才培养丛书”两套大数据教材,帮助解决“机制”欠缺的问题。
此外,与教材配套的 PPT 和其他资料也将继续在大数据世界和云计算世界等网站免费提供。同时,通过智能硬件大数据免费托管平台—万物云和环境大数据开放平台—环境云,使资源与数据唾手可得,让大数据学习变得更加轻松。
在此,特别感谢我的硕士生导师谢希仁教授和博士生导师李三立院士。谢希仁教授所著的《计算机网络》已经更新到第 8 版,与时俱进且日臻完善,时时提醒学生要以这样的标准写书。李三立院士是留苏博士,为我国计算机事业做出了杰出贡献,曾任国家攀登计划项目首席科学家。他严谨治学,带出了一大批杰出的学生。
本丛书是集体智慧的结晶,在此谨向付出辛勤劳动的各位作者致敬!书中难免会有不当之处,请读者不吝赐教。
刘 鹏
2024 年 5 月
前言(第 2 版)
随着信息技术,尤其是互联网技术的迅速发展,各种新技术应用不断渗透到人们的生活中,影响并改变着人们传统的生活和工作方式。现代社会高度依赖计算机提供的相关服务,人们的一举一动,几乎都在触发计算机的计算,直接或者间接产生大量数据。现今,大数据已广为人知,被认为是信息时代的“新石油”。据不完全统计,大数据量呈现出每两年翻一倍的爆炸性增长态势,隐藏着巨大的机会和价值,并将给社会带来诸多变革和发展,已引起学界、政界以及产业界的广泛关注。各个行业已纷纷建立起大数据处理系统,通过对数据的分析和挖掘,为经济、社会,甚至国防安全等提供帮助。
大数据的“大”包含几个维度:数据量大、种类多、价值密度低和增长速度快等。传统的集中式系统处理方式存在性能不达标、经济成本高等问题,正因为如此,分布式系统成为大数据系统的主流发展方向。谷歌三篇论文(Google File System、MapReduce、Bigtable)的公开发表是大数据技术的一个关键引爆点,开启了使用一般性能的服务器搭建大批量数据处理系统的新趋势。
时至今日,大数据技术的生态圈已经越来越庞大,目前比较流行的应用主要是Hadoop、Spark 和 Elastic Search,绝大多数的大数据系统是基于这 3 个技术进行开发的,以这些技术为主题的大数据开发书籍也非常普及。但是开发只是系统整个生命周期的一部分,要想系统稳定运行、真正发挥价值,还需要后期的运维管理。从笔者多年开发和运维的工作经验来看,运维工作也具有很大的挑战性,既要满足业务快速上线,又要保证系统的安全可用。尤其是对于大数据系统,因其服务器数量多、数据存储量大、开源技术多和新技术稳定性有待提高等特点,诸如服务器管理、备份管理、升级管理和性能调优等运维工作,都需要针对大数据技术的特点进行相应的改变与调整。
受清华大学出版社之邀,结合大数据系统的特点,笔者从运维视角进行阐述,编写了大数据运维的教材,以填补这一方面的空白。本书自 2020 年出版后,社会反应良好,被多所高校选作课程教材。这次应出版社和丛书总编刘鹏教授的要求,我们根据大数据技术的最新发展,结合师生们提出的宝贵建议,对本书进行了全新改版,主要增加了云技术发展趋势下涉及的系统运维工作,包括云原生运维、微服务及容器虚拟化、持续集成/持续交付等,并对系统升级涉及的数据准备、业务验证、测试、发布以及性能和日志管理进行大幅补充与完善。
本书从运维工作的分类出发,对每种运维工作都进行了由浅入深的介绍。配置管理是整个运维工作的基础和核心,没有配置管理,就如同没有地图在复杂的城市道路中行走一样,随时可能迷失方向;同时,在配置管理章节介绍大数据技术的运维管理工具,掌握这些工具能有效地提高工作效率。系统管理、故障管理、变更管理和升级管理是基础性的,也是日常性的运维工作;安全管理、性能管理、服务资源管理和高可用管理则在运维工作中相对比较高阶,也是比较复杂的内容;而且系统运维注重强调标准、流程和制度。本书侧重理论和实践的结合。考虑到以青年学生为主的读者对相关概念接触不多,本书在概念阐述上会占有一定篇幅,从而帮助读者更好地理解和融会贯通相关的知识。若读者对书上的一些名词或术语感到陌生,可通过翻阅书后的名词解释进一步理解。本书也安排了专门章节详细介绍运维的关键技术和工具,希望读者能按照课本内容完成相关实验或者练习,达到学以致用的效果。
本书由姜才康拟定大纲并统稿,其中第 1 章“配置管理”由夏志江编写,第 2 章“基础运维管理”和第 9 章“服务资源管理”由姜才康编写,第 3 章“故障管理”和第 6 章 “高可用性管理”由朱辉编写,第 4 章“性能管理”由陶建辉编写,第 5 章“安全管理”由何玮编写,第 7 章“变更及升级管理”由夏志江和肖晨编写,第 8 章“运维场景应用”由李四明和倪小龙编写。本书在编写过程中受到清华大学出版社的大力支持和刘鹏教授的悉心指导,在此深表感谢!虽然在完稿前我们反复检查校对,力求做到内容清晰无误、便于学习理解,但疏漏和不完善之处仍在所难免,恳请读者批评指正,不吝赐教!
姜才康
于成方金融科技有限公司