前言
移动互联网、电子商务及社交媒体的快速发展使得人类需要面临的数据量呈指数增长。根据IDC《数字宇宙》(Digital Universe)研究报告显示,2020年全球新建和复制的信息量将超过40ZB,是当前的10倍;而中国的数据量则会在2020年超过8ZB,比当前增长20倍。数据量的飞速增长带来了大数据技术的发展和服务市场的繁荣,同时在学术界,关于大数据的科研工作如火如荼,越来越多的学者投入到大数据云计算研究之中,相关文献呈指数增长。
不断积累的大数据包含着很多在小数据量时不具备的深度知识和价值,带来巨大的技术创新与商业机遇。大数据分析挖掘将为行业/企业带来巨大的商业价值,实现各种高附加值的增值服务,进一步提升行业/企业的经济效益和社会效益。谈到大数据,不可避免地要提及云计算,云计算结合大数据,这是时代发展的必然趋势。有人把云计算和大数据比作是一个硬币的两面。云计算是大数据的IT基础和平台,而大数据是云计算范畴内最重要、最关键的应用。大数据必然架构在云上才能高效运作并对外服务,两者之间缺一不可,相辅相成,相互促进。
大数据云计算正在快速发展,相关技术热点也呈现百花齐放的局面,业界各大厂商纷纷制定相应的战略,新的概念、观点和产品不断涌现。大数据和云计算作为新一代IT技术变革的核心,必将成为广大学生、科技工作者构建自身IT核心竞争能力的战略机遇。因而作为高层次IT人才,学习大数据和云计算知识,掌握相关技术迫在眉睫。然而,大数据和云计算密切相关,当前国内外相关的资料还相当少,缺乏比较系统完整的论述。目前在我国急需要一本教材能够全面而又系统地讲解大数据和云计算,普及大数据和云计算知识,推广云计算中大数据的应用,解决大数据架构的实际问题,进而培养高层次大数据人才。
在这样的背景下,作者着眼于大数据和云计算有机结合的视角,从理论探索和应用实践两个方面来撰写本书,适合对大数据和云计算具有初步认识并希望对大数据云架构进行深入、全面了解,并进行实践的计算机信息相关专业高年级本科生使用,同时本书也将成为广大专业工程技术人员不可缺少的参考资料。本书分为5篇19章,第1~第3章为大数据云计算概论篇,第4~第10章为大数据云计算关键技术篇,第11~第14章为云计算架构篇,第15和第16章为大数据云架构实践与编程篇,第17~第19章为大数据安全篇。
各章内容如下:
第1章大数据概述,介绍大数据产生背景,大数据发展历程,大数据概念和特点,大数据应用场景,大数据研究展望等内容。
第2章大数据和云计算,介绍大数据和云计算的关系,云计算的概念,云计算的由来,云计算类型,云计算的商业模式。
第3章大数据应用价值,介绍大数据的应用价值,数据的生成、分析、存储、分享、检索、消费都在大数据的生态系统中进行,应用大数据技术,让数据参与决策,发掘找到大数据真正有效的价值,进而改变人们的未来,革新生活模式,产生社会变革。
第4章分布式计算框架,介绍构成大数据云计算的主要关键技术——分布式计算技术,以及Hadoop、Spark、Flink等分布式大数据计算框架。
第5章NoSQL数据库,介绍NoSQL(NoSQL = Not Only SQL),这是一项全新的数据库技术,然后引出分布式数据库的重要理论CAP,最后介绍HBase。
第6章机器学习,介绍机器学习的概念、分类和发展历程,简要介绍多种机器学习算法。
第7章虚拟化,介绍构成云计算的主要关键技术——虚拟技术,它整合多种计算资源,实现架构动态化,并达到集中管理和动态使用物理资源及虚拟资源,以提高系统结构的弹性和灵活性,降低成本、改进服务、减少管理风险等目标。
第8章Docker容器,介绍Docker容器相关的概念、优势、由来和实现原理。
第9章Web 2.0,介绍构成云计算主要的关键技术Web 2.0,是因特网的一次理念和思想体系的升级换代,由原来自上而下的由少数资源控制者集中控制主导的因特网体系转变为自下而上的由广大用户集体智慧和力量主导的因特网体系。
第10章绿色数据中心,介绍构成云计算的主要关键技术——绿色数据中心,是指数据机房中的IT系统、机械、照明和电气等能取得最大化的能源效率和最小化的环境影响。
第11章基础设施即服务,介绍云计算环境中的IaaS(Infrastructure as a Service),分析Amazon公司的IaaS案例。
第12章平台即服务,介绍云计算环境中的PaaS(Platform as a Service),分析Google App Engine和Windows Azure Platform的PaaS案例。
第13章软件即服务,介绍云计算环境中的SaaS(Software as a Service),分析Salesforce的SaaS案例。
第14章容器即服务,介绍云计算环境中的CaaS(Container as a Service),阐述Kubernetes和Mesos容器调度框架,分析互联网公司SAE容器云和互联网公司“去哪网”容器云。
第15章大数据云架构搭建,介绍分布式的Hadoop与Spark集群搭建和基于Docker容器的Spark大数据云架构。
第16章Spark大数据编程,介绍使用Intellij IDEA构建Spark开发环境,并列举应用Spark计算框架的WordCount和基于Spark Streaming股票趋势预测案例。
第17章大数据云计算面临的安全威胁,介绍大数据云计算面临的各种安全威胁,阐述不同行业大数据安全的需求,指出大数据安全应该包括保障大数据安全和大数据用于安全两个层面的含义。
第18章保障大数据安全,介绍保障大数据安全的相关技术和相关实践。
第19章应用大数据保障安全,介绍应用大数据保障安全,包括大数据安全检测及应用,安全大数据,基于大数据的网络态势感知和视频监控数据的安全应用等方面内容。
在本书最后给出了相关的参考文献,有兴趣的读者可以进一步阅读。此外,关于虚拟化技术,作者认为普通虚拟化和容器虚拟化是完全不同的两种技术,大数据云平台多采用容器架构,所以Docker容器技术作为本书独立一章,并且在第4篇详细介绍基于Docker容器的大数据云架构实践。在方兴未艾的大数据云计算时代,统一的标准和解决方案还未成形,不同人在不同背景下的需求和观点是不一样的,我们花费一年多的时间努力编著本书,希望能提供比较深入的见解,每一个对大数据和云计算感兴趣的读者都能学有所得。
更进一步,大数据和云计算是新一代IT技术变革的核心,是中国建立自己IT体系的战略机遇,阅读本书,期待读者既能从宏观角度更全面地认识大数据云架构,同时也能从微观技术实践角度接触大数据和云计算,更深入地学习和掌握大数据和云计算知识。
本书适合于从头至尾阅读,也可以按照喜好和关注点挑选独立的章节阅读。希望本书的介绍能加深读者对云计算的理解。
由于编者水平有限,书中不妥之处在所难免,恳请读者批评指正。
编者2016年5月