





定价:59.8元
印次:1-12
ISBN:9787302540540
出版日期:2020.03.01
印刷日期:2024.01.23
图书责编:王冰飞
图书分类:教材
本书围绕大数据采集,对采集技术的相关基础、技术原理、 Python实现技术、大数据挖掘与应用方法 进行了系统介绍。书中全面、完整地覆盖了各种类型的网络爬虫及相关的信息处理挖掘技术,并提供了27个与爬虫技术和应用相关的Python程序。全书共分为四大部分,即概述、基础篇、技术与实现篇 、大数据挖掘与应用篇。第一部分是概述,首先指出了利用Python采集互联网大数据的重要性,介绍了 相关技术研究、技术体系、 Py t hon爬虫采集技术的合规性及应用现状等; 第二部分是基础篇,包括 Web服务器的应用架构以及HTTP、 Robots、 HTML、页面编码等相关协议和规范; 第三部分是技术与 实现篇,全面介绍了普通网络爬虫技术、动态页面采集方法、主题爬虫技术、 DeepWeb爬虫、微博信息采集 、Web信息提取以及反爬虫技术等,内容涵盖了各种爬虫技术实现方法及Python例子; 第四部分是 大数据挖掘与应用篇,介绍了用于爬虫应用中的典型大数据处理与挖掘技术以及 Web大数据采集的常 见应用模式,并以新闻采集与分析、 SQL注入在线检测为例介绍了Python爬虫应用构建方法,将本书介绍的一些关键技术、模型和工具贯穿在一起。 本书可以作为高等院校大数据、计算机、信息以及经管、金融等相关专业的教材,也可以作为大数据、计算机、信息以及经管、金融等领域研究人员和专业技术人员的参考书。
前言 党的二十大报告中指出:教育、 科技、 人才是全面建设社会主义现代化国家的基础性、战略性支撑。必须坚持科技是第一生产力、 人才是第一资源、 创新是第一动力, 深入实施科教兴国战略、人才强国战略、创新驱动发展战略, 这三大战略共同服务于创新型国家的建设。高等教育与经济社会发展紧密相连, 对促进就业创业、 助力经济社会发展、 增进人民福祉具有重要意义。 互联网数据具有典型的大数据特征,即数据量巨大、数据类型多样化、数据来源丰富,并且随着“互联网+”国家战略的推进,互联网大数据的应用价值变得多样化。因此,互联网大数据成为大数据技术教学和研究应用的重要数据源。 在这种背景下,互联网大数据采集技术成为许多人迫切需要掌握的技术,本书就是为了适应这种需求而编写的,同时本书也是作者及其科研团队十多年来教学和科研实践经验的总结。作者及其科研团队长期从事互联网内容分析挖掘、网络舆情、大数据、信息内容安全技术和应用方面的科研工作,在包括国家自然科学基金项目在内的各类科研项目支持下,对互联网信息获取和处理方法开展了大量研究,积累了一定的经验和成果,涵盖论文、发明专利和软件著作权等,作者强烈希望把科研工作中的体会和理解整理出来。 作者从2011年开始先后为复旦大学信息安全专业的本科生、研究生开设了“信息内容安全”“大数据安全”等课程,经过多年的教学实践,了解了学生的学习需求,积累了较为充足的关于互联网大数据采集挖掘技术的讲义和素材。作者于2017年出版了《互联网大数据处理技术与应用》一书,两年来经过在不同场合下与学生、读者和同行的交流,体会到互联网大数据采集技术在大数据研究和...
目录
源码下载
第一部分概述
第1章大数据采集概述
1.1互联网大数据与采集
1.1.1互联网大数据来源
1.1.2互联网大数据的特征
1.2Python爬虫大数据采集技术的重要性
1.3爬虫技术研究及应用现状
1.4爬虫技术的应用场景
1.5爬虫大数据采集的技术体系
1.5.1技术体系构成
1.5.2相关技术
1.5.3技术评价方法
1.6爬虫大数据采集与挖掘的合规性
1.7爬虫大数据采集技术的展望
思考题
第二部分基础篇
第2章Web页面及相关技术
2.1HTML语言规范
2.1.1HTML标签
2.1.2HTML整体结构
2.1.3CSS简述
2.1.4常用标签
2.1.5HTML语言的版本进化
2.2编码体系与规范
2.2.1ASCII
2.2.2gb2312/gbk
2.2.3unicode
2.2.4utf8
2.2.5网页中的编码和Python处理
2.3Python正则表达式
思考题
第3章Web应用架构与协议
3.1常用的Web服务器软件
3.1.1流行的Web服务器软件
3.1.2在Python中配置Web服务器
3.2Web服务器的应用架构
3.2.1典型的应用架构
3.2.2Web页面的类型
3.2.3页面文件的组织方式
3.3Robots协议
...