图书前言

前言

云计算具有超大规模、虚拟化、高扩展性等特点,可以为企业和用户提供各种低成本的计算资源和IT服务,从而为实现高效信息化管理和海量数据服务提供强有力的计算支撑。但是管理这些云程序需要消耗大量电能并带来很大的操作开销,同时也会对环境造成巨大的负面影响。随着云计算平台规模的不断扩大,一方面数量不断增长、处理能力不断增强的服务器带来更多的能量消耗;另一方面每个服务器过低的利用率又造成巨大的电能浪费。国家能源局原局长张国宝2012年表示,他了解的中国联通云计算中心的能耗数据显示,该中心每年耗电99亿千瓦时,以中国目前标准煤的效能,需要消耗92万吨标准煤才能提供足够的电力供中国联通云计算中心的能耗需求;与中国联通云计算中心对应,中国电信云计算中心年耗电112亿千瓦时,总计年需消耗102.95万吨标准煤。所以,在云计算环境下开展能耗研究势在必行。

造成云计算平台能耗效率低下的一个重要原因是空闲服务器消耗的功耗没有随着其状态的空闲而线性降低,即使在诸如10% CPU利用率的情况下,服务器也要消耗超过50%的功耗。由此实现服务器状态的按需切换,进而缩减在线服务器规模是节省能耗的有效方式,最后的资源分配方案就是保证服务质量的前提下实现能耗尽可能的降低。由此可以得出如下两个结论。

(1) 云计算平台迫切需要进行能耗感知的研究,但是必须在服务性能优化与服务质量保证的前提下。这就需要深入研究服务能耗与性能的关系,寻求性能保证与能耗节省两者的和谐统一。

(2) 云计算平台能耗感知的实现是以其上所有服务的能耗感知为基础的。这就需要构建服务与平台两层的能耗感知系统框架,同时深入研究两者的交互关系,实现从局部到全局的高能低耗。

服务能耗感知研究是当前云计算能耗管理领域的研究热点与趋势,这些研究已形成/云计算环境下能耗感知模型与方法进展研究前言/了较为成熟的研究模式,并积累了丰富的模型、方法与经验。但是当前相关研究没有很好地实现性能保证与能耗降低的优化权衡。

本书针对当前云计算平台存在的高性能保证与低能耗需求这一对矛盾的需求问题,从全面认识服务负载特性以及服务性能分析模型构建的角度出发,完成服务的能耗感知方案决策,在充分调动服务器集群的计算能力的同时完成服务能耗的有效降低,并在此基础上通过全局资源在服务间的有效调度与布局,实现整个高可扩展云平台的所有服务的高能低耗。具体研究内容包括以下五个部分。

1. 大范围变动下的负载与性能模型 

对于多类方式描述的大范围变动请求服务时间,传统上采用多类服务时间定律(基于单类服务时间定律扩展得到)不适用于实际监控环境,因为实际中无法获取每类请求对应的利用率信息Di,j。本书采用统计回归的数学模型求解计算每类请求的平均服务时间。假定将请求划分为N类,系统中有M个资源,根据利用率定律(Utilization Law)Uj=Bj/T=Dj×X0,j代表第j个资源,X0是整个系统的吞吐量,Dj是请求在第j个资源消耗的时间,T是监控窗口大小,Bj是第j个资源忙碌期间(简称忙期),将利用率定律扩展为多类请求情况,得到第j个资源在监控窗口k的利用率公式为∑iNi,k×Di,j=Uj,k×T,1≤i≤N,1≤j≤M。由此估算出Di,j的近似值Ci,j,则第j个资源在第k个窗口T期间利用率的估算值为U′j,k=∑iNi,k×Ci,jT。

2. 时间长相关负载下的性能模型

长相关(LongRange Dependent,LRD)作为云计算环境下Internet负载的一个重要特征,与不具有相关性的更新过程(如泊松分布)负载和短相关的非更新过程负载相比,其对性能的影响更大。基于MAP(Markovian Arrival Process,马尔可夫到达过程)构建的性能模型可以通过矩阵分析法快速、有效地求解,且MAP模型描述负载的能力随着阶数增大而增大,所以以往研究常利用有限高阶MAP描述长相关负载。针对低阶MAP不准确而高阶MAP又存在复杂度高的问题,本书通过降低解决高阶MAP拟合问题复杂度最终达到利用非线性优化算法求解多个低阶组合MAP(2)s(Markovian Arrival Process of Second Order的缩写,即2阶MAP)的目的,然后借鉴KPC组合技术生成高阶MAP,使得生成的MAP更好地匹配实际负载。

3. 重载服务的准入控制规则

当服务集群长期处于重载状态时,就要使用准入控制规则。学术界已有的研究大多利用简单、固定的策略: 为请求到达速率、队列长度、服务器负载设定上限,一旦超过设定的阈值,则系统拒绝为新来的请求服务或拒绝建立新的连接/会话,并且现有的准入控制策略均未考虑负载的时间相关性这一因素。本书的关注点是研究针对时间长相关性Internet负载,何时开始丢弃以及如何丢弃才能最大化服务质量的同时尽可能减少请求丢弃的比例,采用了如下策略: 在请求到达时检查队列长度,如果队列长度大于阈值,则依据到达过程或服务过程的自相关系数判断准入或者丢弃,称之为基于自相关性的准入控制策略。之所以采用自相关系数,是因为它是最常见的用来描述负载时间相关性的指标。 

4. 轻载服务的能耗感知决策

当服务集群处于轻载时,需要做出如下决策: 在当前的集群内的活跃节点能够保证服务质量的前提下何时可以将某些空闲节点的状态进行切换。对于当前的服务集群,就转化为一个局部优化问题,求解得到能够保证服务质量的活跃节点序列,将其余节点进行状态切换。本书引入了通信领域的爱尔朗公式,结合上述两个负载模型与性能模型,采用递推公式以迭代方式完成对不同状态服务的资源需求定量分析,最终求解得出该服务在满足服务质量前提下所需要的服务节点的最小序列。

5. 兼顾性能与能耗的虑及服务迁移的全局资源调度算法

已有的资源调度算法的整体目标是满足各个服务SLA需求的同时最大化全局效用,效用目标的定义各不相同,都有各自的考量,但基本上都关注解决共享式云计算平台资源闲置浪费的问题。针对传统全局资源布局中在资源动态调度时仅考虑性能指标并存在节点迁移开销过大的问题,加入性能与能耗的两维效用,采用改进的遗传算法确定节点在服务间的分配,最优解以满足重载服务的服务质量(QoS)为主要目标,通过提高能力高节点的利用率以实现全局能耗的降低。同时对于重载服务在扩容节点时加入迁移节点的时间开销惩罚,从而有效避免了节点在服务间的迁移抖动,在权衡性能与能耗的基础上达到绿色云计算中心的目标。

本书总结与归纳该领域已有的工作,首先完成服务模型构建、服务能耗感知决策以及全局资源调度算法等相关理论的学习和分析;然后对相关的关键问题逐一进行探讨,力求在模型与方法上有所创新,并通过实验验证其有效性;最后提出EADC(EnergyAware Data Center)系统框架,从系统的角度综合考虑各个环节,探讨整体的解决思路,避免对问题的孤立研究,并进一步对研究成果进行验证,EADC框架包括服务(VEMS)与系统(DCMS)两层的能耗模块。

(1) 在服务集群内,实验数据表明构建的负载与性能模型的计算输出与观察数据基本匹配;以负载与性能模型为基础,VEMS通过节点状态的切换决策,在服务质量保证的同时降低了服务能耗的33%。

(2) 在数据中心级别,全局资源布局决策器DCMS通过资源的优化布局算法实现了请求突发服务的服务质量满足,同时降低了全局能耗的24%;规模性测试表明算法具有良好的可扩展性,并没有因为云计算中心规模的扩大而降低算法的有效性。

本书为云计算平台的诸多关键问题的求解提供了一套系统的模型、方法与技术,推进了云计算平台服务能耗管理策略的进一步研究和发展,为解决云计算环境下的服务高能耗问题提供了系统的理论支撑。本书的研究成果对于云计算环境下实现精确、高效的服务能耗感知,构建高能低耗平台,从而为其上各类服务提供丰富强大的信息服务具有重要的应用价值,有助于为政府、高校、企业及个人用户提供高能低耗的可扩展的海量数据服务。

本书的出版得到国家自然科学基金面上项目(NO.61472172)、山东省重点研发计划(NO.2015GGX101014)、烟台市科技发展计划(NO.2015ZH060)和鲁东大学博士基金(NO.28090301)的资助。另外,本书的编写还得到鲁东大学王刚教授与岳峻教授、中国农业大学李振波副教授的大力支持,我的师姐王秀文副研究员对于本书的部分内容亦有一定的贡献。在此对这些教授的鼓励和帮助表示衷心的感谢。

特别感谢清华大学出版社,感谢责任编辑及其他参与此书编辑工作的各位老师为本书顺利出版而付出的辛勤劳动。

由于作者水平有限,书中不妥之处在所难免,诚恳希望同行和读者批评指正,以便以后改正和完善。

曲海平2017年10月于山东烟台