首页 > 图书中心 >图书详情

Python爬虫大数据采集与挖掘-微课视频版

提供300分钟视频讲解,教学大纲、课件、习题答案、程序源码等配套资源。咨询QQ:2301891038(仅限教师)。

作者:曾剑平
定价:59.80
印次:1-12
ISBN:9787302540540
出版日期:2020.03.01
印刷日期:2024.01.23

本书围绕大数据采集,对采集技术的相关基础、技术原理、 Python实现技术、大数据挖掘与应用方法 进行了系统介绍。书中全面、完整地覆盖了各种类型的网络爬虫及相关的信息处理挖掘技术,并提供了27个与爬虫技术和应用相关的Python程序。全书共分为四大部分,即概述、基础篇、技术与实现篇 、大数据挖掘与应用篇。第一部分是概述,首先指出了利用Python采集互联网大数据的重要性,介绍了 相关技术研究、技术体系、 Py t hon爬虫采集技术的合规性及应用现状等; 第二部分是基础篇,包括 Web服务器的应用架构以及HTTP、 Robots、 HTML、页面编码等相关协议和规范; 第三部分是技术与 实现篇,全面介绍了普通网络爬虫技术、动态页面采集方法、主题爬虫技术、 DeepWeb爬虫、微博信息采集 、Web信息提取以及反爬虫技术等,内容涵盖了各种爬虫技术实现方法及Python例子; 第四部分是 大数据挖掘与应用篇,介绍了用于爬虫应用中的典型大数据处理与挖掘技术以及 Web大数据采集的常 见应用模式,并以新闻采集与分析、 SQL注入在线检测为例介绍了Python爬虫应用构建方法,将本书介绍的一些关键技术、模型和工具贯穿在一起。 本书可以作为高等院校大数据、计算机、信息以及经管、金融等相关专业的教材,也可以作为大数据、计算机、信息以及经管、金融等领域研究人员和专业技术人员的参考书。

more >

前言 党的二十大报告中指出:教育、 科技、 人才是全面建设社会主义现代化国家的基础性、战略性支撑。必须坚持科技是第一生产力、 人才是第一资源、 创新是第一动力, 深入实施科教兴国战略、人才强国战略、创新驱动发展战略, 这三大战略共同服务于创新型国家的建设。高等教育与经济社会发展紧密相连, 对促进就业创业、 助力经济社会发展、 增进人民福祉具有重要意义。 互联网数据具有典型的大数据特征,即数据量巨大、数据类型多样化、数据来源丰富,并且随着“互联网+”国家战略的推进,互联网大数据的应用价值变得多样化。因此,互联网大数据成为大数据技术教学和研究应用的重要数据源。 在这种背景下,互联网大数据采集技术成为许多人迫切需要掌握的技术,本书就是为了适应这种需求而编写的,同时本书也是作者及其科研团队十多年来教学和科研实践经验的总结。作者及其科研团队长期从事互联网内容分析挖掘、网络舆情、大数据、信息内容安全技术和应用方面的科研工作,在包括国家自然科学基金项目在内的各类科研项目支持下,对互联网信息获取和处理方法开展了大量研究,积累了一定的经验和成果,涵盖论文、发明专利和软件著作权等,作者强烈希望把科研工作中的体会和理解整理出来。 作者从2011年开始先后为复旦大学信息安全专业的本科生、研究生开设了“信息内容安全”“大数据安全”等课程,经过多年的教学实践,了解了学生的学习需求,积累了较为充足的关于互联网大数据采集挖掘技术的讲义和素材。作者于2017年出版了《互联网大数据处理技术与应用》一书,两年来经过在不同场合下与学生、读者和同行的交流,体会到互联网大数据采集技术在大数据研究和教学中的重要性,因此也迫切需要对大数据采集技术进行深入细化,整理相关技术原理和实现技术。 本书以互联网大数据采集为主题,介绍相关技术基础、大数据采集技术、大数据挖掘及应用技术。在内容安排上,本书充分考虑了知识体系的完整性和独立性,涵盖Web应用架构技术、Web页面及相关技术、各种爬虫采集技术、Web信息提取技术、大数据处理与挖掘以及应用方式; 在爬虫技术上,涵盖了各种不同类型的爬虫,包括普通爬虫、动态爬虫、主题爬虫、Deep Web爬虫以及微博爬虫; 在应用方面,以两种典型的Web网站信息采集与处理为例,介绍了爬虫技术的应用模式与Python实现方法。 本书作为一本产学兼顾的教材,具有如下特色: (1) 以互联网大数据采集技术为中心,将Web应用技术、各种页面采集的共性技术与特有技术、大数据处理与挖掘以及爬虫合规性等相关技术有机地结合在一起,涉及当前互联网Web空间的典型应用,构成完整的大数据采集技术和应用的知识体系。 (2) 在互联网大数据的采集技术中,完整系统地涵盖了普通爬虫、动态爬虫、主题爬虫、Deep Web爬虫以及微博数据采集,既强调爬虫抓取数据的功能,也凸显爬虫作为Web应用安全监测的主要技术,有利于读者全面理解网络爬虫大数据技术及其应用。 (3) 秉承“授人以鱼不如授人以渔”的总体思路,本书理论与实践相结合,书中既有相关技术原理的介绍,也包含了大量的Python实现技术、开源架构等方面的介绍,提供了27个与爬虫技术和应用相关的Python程序,使得读者既能理解技术问题又能动手实践。 本书分为四大部分,共12章,涵盖互联网大数据采集的基础、技术和应用,各章的内容安排如下: 第一部分概述,包括第1章。 第1章对大数据采集的重要性、技术体系、应用现状、合规性以及技术发展进行了概述。 第二部分基础篇,包括第2、3章。 第2章介绍了Web页面信息提取中的主要基础技术和方法,包括HTML语言规范、页面编码体系与规范,以及广泛用于Web页面简单信息提取的正则表达式。 第3章对Web应用架构技术进行了介绍,包括Web服务器应用架构、HTTP协议、状态保持技术、Robots协议等与爬虫密切相关的技术。 第三部分技术与实现篇,包括第4~10章。 第4章对普通爬虫页面采集技术进行了介绍,包括Web服务器连接器、爬虫策略、超链接处理以及Python的实现方法等。 第5章介绍了动态爬虫的相关技术,包括动态页面内容的生成与交互、动态页面采集的若干种典型方法和Python实现技术。 第6章介绍了从Web页面提取信息所需要的技术,介绍了技术原理和典型的开源技术,给出了一些实例。 第7章介绍了主题爬虫技术及实现方法,涉及主题爬虫的技术体系、主题表示和建模、主题相似度计算等。 第8章是关于Deep Web的数据采集技术及实现。 第9章是关于微博信息的采集方法及实现,主要包括通过API获取微博信息和通过爬虫技术获取微博信息两种方法。 第10章介绍了反爬虫的常用技术,同时也介绍了针对这些反爬虫技术的一些主要应对措施。 第四部分大数据挖掘与应用篇,包括第11、12章。 第11章介绍了大数据采集应用以及主题爬虫中需要使用的部分技术,包括文本的预处理、文本分类、主题建模、大数据可视化技术以及一些开源工具等。 第12章针对两种典型的大数据采集技术应用案例进行了完整的介绍。 这些章节的知识点之间的依赖关系如下图所示,其中,虚框中的第4~9章是各种典型的爬虫采集技术, 第1~3章是相关技术基础。读者可以根据自己的基础选择合适的学习路线。 全书由曾剑平负责内容安排、统稿,由互联网大数据处理技术和应用研究领域的一线人员参与编写。段江娇参与编写了第1、4、5章,廖含月编写了第2章的部分内容,孟元编写了本书部分例子的程序及相关文字说明,肖杨实现了SQL注入的爬虫在线检测,其他部分由曾剑平编写,曾睿对全书进行了校对。清华大学出版社的编辑们为本书的出版和编辑、校对花费了很多心思; 此外,在本书的编写过程中参考和引用了许多作者发表的各种论文、技术报告,均已在参考文献中列出,在此一并表示衷心的感谢。需要特别提到的是,为了便于读者理解相关技术,书中选择若干互联网网站页面采集作为实例,特别向这些网站表示感谢。 注: 本书提供300分钟的视频讲解,扫描书中相关位置的二维码可以在线观看、学习; 本书还提供教学大纲、教学课件、程序源码、教学进度表等配套资源,扫描封底的二维码可以下载。 互联网大数据采集技术仍在不断发展当中,本书在内容选择及编写上从深度和广度做了精心的安排。由于时间仓促以及作者的学识水平限制,书中难免存在不足之处和疏忽,恳请读者不吝批评指正,以利于再版修订完善。 作者2019年10月

more >
扫描二维码
下载APP了解更多

同系列产品more >

Spark基础编程

曹如军
定 价:45元

查看详情
MATLAB人工智能算法实战

丁伟雄
定 价:89.80元

查看详情
工业互联网技术导论

黄源
定 价:59.80元

查看详情
Python数据挖掘算法与应用

刘金岭、马甲林
定 价:59.80元

查看详情
Python视觉分析应用案例实战

丁伟雄
定 价:99.80元

查看详情
图书分类全部图书
more >
  • 本书围绕大数据采集,对采集技术的相关基础、技术原理、Python实现技术、大数据挖掘与应用方法进行了系统介绍。书中全面完整地覆盖了各种类型的网络爬虫及相关的信息处理挖掘技术,并提供了27个与爬虫相关技术和应用相关的Python程序。本书可以作为高等院校大数据、计算机、信息以及经管、金融等人文社科相关专业研究生和高年级本科生的教材,也可以作为大数据、计算机、信息以及经管、金融等人文社科领域研究人员和专业技术人员的参考书。




more >
  • 目录

    源码下载

    第一部分概述

    第1章大数据采集概述

    1.1互联网大数据与采集

    1.1.1互联网大数据来源

    1.1.2互联网大数据的特征

    1.2Python爬虫大数据采集技术的重要性

    1.3爬虫技术研究及应用现状

    1.4爬虫技术的应用场景

    1.5爬虫大数据采集的技术体系

    1.5.1技术体系构成

    1.5.2相关技术

    1.5.3技术评价方法

    1.6爬虫大数据采集与挖掘的合规性

    1.7爬虫大数据采集技术的展望

    思考题

    第二部分基础篇

    第2章Web页面及相关技术

    2.1HTML语言规范

    2.1.1HTML标签

    2.1.2HTML整体结构

    2.1.3CSS简述

    2.1.4常用标签

    2.1.5HTML语言的版本进化

    2.2编码体系与规范

    2.2.1ASCII

    2.2.2gb2312/gbk

    2.2.3unicode

    2.2.4utf8

    2.2.5网页中的编码和Python处理

    2.3Python正则表达式

    思考题

    第3章Web应用架构与协议

    3.1常用的Web服务器软件

    3.1.1流行的Web服务器软件

    3.1.2在Python中配置Web服务器

    3.2Web服务器的应用架构

    3.2.1典型的应用架构

    3.2.2Web页面的类型

    3.2.3页面文件的组织方式

    3.3Robots协议

    ...

精彩书评more >

标题

评论

版权所有(C)2023 清华大学出版社有限公司 京ICP备10035462号 京公网安备11010802042911号

联系我们 | 网站地图 | 法律声明 | 友情链接 | 盗版举报 | 人才招聘