图书前言

前  言

当前,大数据(Big Data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。数据正在迅速膨胀并变大,它决定着企业的未来发展,虽然现在企业可能并没有意识到数据爆炸性增长带来的隐患,但是随着时间的推移,人们将越来越多的意识到数据对企业的重要性。大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。

大数据在互联网行业指的是这样一种现象:互联网公司在日常运营中生成、累积的用户网络行为数据。这些数据的规模是如此庞大,以至于不能用G或T来衡量,大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。

大数据专业作为典型的“新工科”专业,在课程体系建设方面还处于摸索阶段,没有太多可供借鉴的现成经验,需要一大批热爱教学的高等学校教师积极投身课程体系和教材建设工作中,共同推动全国高等学校大数据教学工作不断向前发展。

关于本书

本书定位为大数据从入门到应用的简明系统教材,特色是理论和实践相结合,更多的是以应用实战为主,内容全面、深入浅出地讲解了每个知识点,通俗易懂。对每个实验基本是按照学习的习惯,分步骤式地讲述,每个步骤都有文字说明和效果截图,使得读者能很清晰地知晓自己在动手实操过程的效果和错误之处,一目了然。

本书使用Apache原生态的Hadoop环境,包括关系型数据库MySQL、分布式文件系统HDFS、非结构化数据库HBase、数据接入工具Kafka等组件。在撰写过程中,参考了大量网络的资料,百度、谷歌、知乎、CSDN等知名网站,阅读了多种大数据相关方面的文献,对比了各自介绍文章的优势和不足。

本书分为9章,第1章着重介绍大数据的基础应用和发展趋势;第2章着重介绍大数据开发所需的技术基础,包括Linux、Java、SQL等;第3章着重介绍常见的数据采集器以及采集工具Flume和传输工具Sqoop;第4章着重介绍大数据存储相关的HDFS和NoSQL、Redis、MongoDB、Neo4j等数据库;第5章着重介绍数据仓库Hive和大数据挖掘分析算法及应用;第6章着重介绍了Spark计算框架的原理机制和处理技术;第7章着重介绍了大数据可视化原理和Tebleau、Power BI等工具;第8章分析了大数据技术目前所面临的安全挑战及其对策;第9章对大数据技术的应用和发展做出了展望。全书提供了与章节学习内容配套的实验,重点章节配有习题。

本书适合的读者

本书是大数据技术的基础用书,适合作为中职、高职、应用型本科的前导课程,在整个人才培养方案里面属于大数据的专业基础课程部分,建议授课时间为第2学期或者第3学期。

本书同时也适合大数据的初学者,对大数据感兴趣的技术人员,以及想从事大数据开发工作的初学者。

阅读本书之前,读者应该具有如下基础:有一定计算机网络基础知识;了解 Linux基本原理;懂得基本的Linux操作命令;对Java语言有一定了解;了解传统的数据库的理论知识。

联系方式与资源下载

大数据技术的发展非常快速,在今后的工作中,笔者以及德明教育会持续跟踪大数据的发展趋势,把大数据最新的技术和本书相关补充资料及时发布到官网,方便本书读者通过网络及时获取到相关信息。由于笔者能力有限,书中难免存在不足之处,望广大读者能够提出宝贵意见。

本书是完整的学校指导用书,配套资源包括课程标准、课程大纲、教学日历、教学课件PPT、实训手册、习题题目和答案、期末考试卷和答案、实验环境、教学的微课、实验的视频,非常方便各高校教师的授课,相关的配套资源会在德明教育官网持续更新,欢迎大家在线查看和下载。网页地址二维码如下:

 

陈建平

2020年1月