前言
互联网技术及应用进入一个高速发展时期,那些随手可得的互联网应用深刻地影响着社会经济的发展,改变了人们衣食住行、吃喝玩乐的生活方式,人们对互联网的依赖度逐年提升。网络数字化生活形态的形成,促进了互联网数据的累积,大数据由此成为互联网技术应用的新鲜血液,并将成为今后很长一段时期内各方关注的焦点。互联网大数据处理的理论、技术及其应用与社会经济各个领域的融合越来越密切,相关领域的专业技术人员迫切需要建立完整的互联网大数据分析应用的知识体系,以适应今后发展趋势的要求。
本书作者及其科研团队近十年来一直从事互联网内容分析挖掘、网络舆情、大数据、信息内容安全技术和应用方面的科研工作。在包括国家自然科学基金项目在内的各类科研项目支持下,对互联网信息获取和提取方法、互联网信息内容结构化处理技术、语义分析技术、数据挖掘的模型与算法、社交媒体中的用户行为及互联网金融等应用领域开展了大量研究,积累了一定的经验,强烈希望把科研工作中的体会和理解整理出来。此外,作者从2011年开始先后为复旦大学信息安全专业的本科生、研究生开设了《信息内容安全》《大数据安全》等课程,经过多年的教学实践,了解了学生的学习需求,积累了较为充足的讲义和素材。2016年5月,教育部联合阿里云计算有限公司等单位发起了产学合作专业综合改革项目,确定了包括大数据在内的多个新技术方向的教材编写目标,以产学结合来推动高校教材和课程的改革。本书的编写正是在该综合改革项目的支持和推动下进行的,是第一本系统讲述互联网大数据处理技术及应用的教材和专业参考书。
本书在知识结构上,试图覆盖互联网大数据处理与应用的完整知识体系;在内容上,尽量做到深入浅出,既考虑知识的基础性,也兼顾技术发展方向和前沿。本书全面介绍互联网大数据处理与应用中的主要理论和技术,分为概述、互联网大数据的获取、大数据的结构化处理与分析技术和综合应用四大部分,涉及互联网大数据处理技术的各个方面,侧重于基本原理和实践技术的介绍,特别是较为系统全面地介绍互联网大数据获取、分析挖掘的各种技术,并融合了阿里云计算大数据平台的一些先进思想和业界的实践经验。
本书作为一本产学兼顾的教材,具有如下特色。
(1) 针对互联网大数据,从大数据的获取到可视化展示与发布的整个过程,帮助学生建立完整的知识体系。侧重于非结构化数据处理与分析,由于传统的结构化数据分析技术相对比较成熟,因此这种安排将有助于读者接触到更多的大数据核心关键技术。
(2) 除了一些比较基础性的知识外,在各个章节还融入了作者在教学和科研中所积累的一些值得深入探讨的问题和观点,具有一定的启发性。
(3) 理论与实践相结合,各个章节既包含技术原理介绍,也包含实现技术、开源架构等方面的叙述,使得读者能从中掌握技术应用及实现方法。
(4) 注重产学结合,基于阿里云及其大数据平台,构建了综合应用实例,有效地集成运用了本书的一些关键技术,帮助读者深入理解大数据处理技术。
全书由曾剑平负责内容安排、统稿,由互联网大数据处理技术和应用研究领域的一线人员参与编写。书中各章的编写人员安排: 第1章由曾剑平、段江娇编写,第2章由曾剑平、段江娇、胡源编写,第3章由曾剑平、胡源编写,第4章由曾剑平、张硕编写,第5章由曾剑平、段江娇、毛天昊编写,第6章由曾剑平、张硕、段江娇、毛天昊编写,第7章由张泽文、吴爽、曾剑平编写,第8章由曾剑平、王欣编写,第9章由曾剑平、黄智行编写。另外,黄智行对
第5章的CRF应用实例的部分程序
及
第9章的个性化新闻推荐系统
进行了实现。本书在编写过程中,得到了阿里云计算有限公司的李妹芳女士的大力支持,在产学合作教材编写项目申请、立项、跟踪、结题、应用案例构建,以及相关的文字表达方面给予了很多帮助和指导。阿里云计算有限公司的宁尚兵先生在阿里云平台和大数据平台的使用、开发方面也给了大力的支持和帮助,阿里云计算有限公司的多位技术专家对本书的结构和知识安排提出了有益的建议。清华大学出版社的编辑们为本书的出版和编辑花费了很多心思。
复旦大学计算机科学技术学院汪卫教授、中国科学院计算技术研究所靳小龙副研究员对本书进行了审阅,提出了宝贵的意见。
此外,在本书的编写过程中,参考和引用了许多作者发表的各种论文、技术报告,我们均已在参考文献中列出。在此,一并表示衷心的感谢。
由于互联网大数据处理与应用技术所涉及的内容广泛,许多技术仍在不断发展中,所以本书在内容选择及编写上从深度和广度做了精心的安排。尽管编写组成员最近5个月来全身心投入,对每个技术要点尽量清楚地描述,但由于时间仓促及作者的学识水平限制,书中难免存在不足之处和疏忽,恳请读者不吝批评指正,以利于再版修订完善。
作者
2017年1月