





定价:49元
印次:1-10
ISBN:9787302463719
出版日期:2017.04.01
印刷日期:2023.12.25
图书责编:黄芝
图书分类:教材
本书内容分为三个部分,第一部分为互联网大数据的概述;第二部分为互联网大数据的获取与存储,包括了静态或动态WEB页面内容获取技术、结构化或非结构化数据的存储、常见的开源系统等;第二部分为处理与分析技术,包括了文本数据预处理、数据内容的语义分析技术、文本内容分类技术、聚类分析、大数据中的隐私保护、大数据可视化等内容;第三部分为综合应用。
1. 针对互联网大数据,从大数据的获取到可视化展示与发布的整个过程,帮助读者建立完整的知识体系。侧重于非结构化数据处理与分析,有助于读者接触到更多的大数据核心关键技术。2. 各章节融入了作者在教学和科研中所积累的一些值得深入探讨的问题和观点,具有一定的启发性。3. 理论与实践相结合,各个章节包含有技术原理介绍,也包含实现技术、开源架构等方面的叙述,使得读者能从中掌握技术应用及实现方法。4. 注重产学结合,基于阿里云及其大数据平台,构建了综合应用实例,有效地集成运用了本书的一些关键技术,帮助读者深入理解大数据处理技术。 如果希望加入教师微信交流群,请加微信:itbook8 如果希望加入教师QQ交流群,请加QQ:883604 加入时,请写明:“学校+姓名”,并写明“加入教师群”,只限教师。
前言 互联网技术及应用进入一个高速发展时期,那些随手可得的互联网应用深刻地影响着社会经济的发展,改变了人们衣食住行、吃喝玩乐的生活方式,人们对互联网的依赖度逐年提升。网络数字化生活形态的形成,促进了互联网数据的累积,大数据由此成为互联网技术应用的新鲜血液,并将成为今后很长一段时期内各方关注的焦点。互联网大数据处理的理论、技术及其应用与社会经济各个领域的融合越来越密切,相关领域的专业技术人员迫切需要建立完整的互联网大数据分析应用的知识体系,以适应今后发展趋势的要求。 本书作者及其科研团队近十年来一直从事互联网内容分析挖掘、网络舆情、大数据、信息内容安全技术和应用方面的科研工作。在包括国家自然科学基金项目在内的各类科研项目支持下,对互联网信息获取和提取方法、互联网信息内容结构化处理技术、语义分析技术、数据挖掘的模型与算法、社交媒体中的用户行为及互联网金融等应用领域开展了大量研究,积累了一定的经验,强烈希望把科研工作中的体会和理解整理出来。此外,作者从2011年开始先后为复旦大学信息安全专业的本科生、研究生开设了《信息内容安全》《大数据安全》等课程,经过多年的教学实践,了解了学生的学习需求,积累了较为充足的讲义和素材。2016年5月,教育部联合阿里云计算有限公司等单位发起了产学合作专业综合改革项目,确定了包括大数据在内的多个新技术方向的教材编写目标,以产学结合来推动高校教材和课程的改革。本书的编写正是在该综合改革项目的支持和推动下进行的,是第一本系统讲述互联网大数据处理技术及应用的教材和专业参考书。 本书在知识结构上,试图覆盖互联网大数据处理与应用的完整知识体系;在内容...
目录
第1部分概述
第1章互联网大数据
1.1从IT走向DT
1.1.1信息化与Web时代
1.1.2大数据时代
1.2互联网大数据及其特点
1.3互联网大数据处理的相关技术
1.3.1技术体系构成
1.3.2相关技术研究
1.4互联网大数据技术的发展
1.5本书内容安排
思考题
第2部分互联网大数据的获取
第2章Web页面数据获取
2.1网络爬虫技术概述
2.2爬虫的内核技术
2.2.1Web服务器连接器
2.2.2页面解析器
2.2.3爬行策略搜索
2.3主题爬虫技术
2.3.1主题爬虫模块构成
2.3.2主题定义
2.3.3链接相关度估算
2.3.4内容相关度计算
2.4动态Web页面获取技术
2.4.1动态页面的分类
2.4.2动态页面的获取方法
2.4.3模拟浏览器的实现
2.4.4基于脚本解析的实现
2.5微博信息内容获取技术
2.6DeepWeb数据获取技术
2.6.1相关概念
2.6.2DeepWeb数据获取方法
2.7反爬虫技术与反反爬虫技术
2.7.1反爬虫技术
2.7.2反反爬虫技术
2.7.3爬虫技术的展望
思考题
第3章互联网大数据的提取技术
3.1Web页面内容提取技术
3.1.1Web页面内容提取的基本任务
3.1.2Web页面解析方法概述
3.1.3基于HTMLParser的页面解析
...
2. 各章节融入了作者在教学和科研中所积累的一些值得深入探讨的问题和观点,具有一定的启发性。
3. 理论与实践相结合,各个章节包含有技术原理介绍,也包含实现技术、开源架构等方面的叙述,使得读者能从中掌握技术应用及实现方法。
4. 注重产学结合,基于阿里云及其大数据平台,构建了综合应用实例,有效地集成运用了本书的一些关键技术,帮助读者深入理解大数据处理技术。