首页 > 图书中心 >图书详情
Python爬虫大数据采集与挖掘(第2版·微课视频版)
作者:曾剑平
丛书名:大数据与人工智能技术丛书
定价:59.80元
印次:2-1
ISBN:9787302678250
出版日期:2025.01.01
印刷日期:2025.02.19
"本书围绕大数据采集与挖掘,对采集技术的相关基础、技术原理、Python实现技术、大数据挖掘与应用方法进行了系统介绍。书中全面、完整地覆盖了各种类型的网络爬虫及相关的信息处理挖掘技术,并提供了45个与爬虫技术和应用相关的Python程序。全书共分为四部分,即概述、基础篇、技术与实现篇、大数据挖掘与应用篇。第一部分 (第1章)是概述,指出利用Python采集互联网大数据的重要性,介绍了相关技术研究、技术体系、 采集技术的合规性及应用现状等 ,分析了大模型对互联网大数据技术的影响; 第二部分 (第2、3章)是基础篇,包括Web服务器的应用架构以及HTTP、Robots、HTML、页面编码等相关协议和规范; 第三部分 (第4~10章)是技术与实现篇,全面介绍普通网络爬虫技术、动态页面采集方法、主题爬虫技术、Deep Web爬虫、微博信息采集、Web信息提取以及反爬虫技术等,内容涵盖各种爬虫技术实现方法及Python实例; 第四部分 (第11、12章)是大数据挖掘与应用篇,介绍 文本、情感、社交网络和时间序列等典型大数据处理与挖掘技术 及应用模式,并以新闻舆情监测、 Web自动化测试、酒店评论文本挖掘 为例介绍Python爬虫应用构建方法,将本书介绍的一些关键技术、模型和工具贯穿在一起。 "
more >前言 党的二十大报告强调: “加快发展数字经济,促进数字经济和实体经济深度融合”,互联网大数据在数字经济中占据着核心地位,是推动经济社会发展的关键生产要素。互联网数据具有典型的大数据特征,即数据量大、数据类型多样化、数据流动性快,并且随着“互联网+”和数字经济国家战略的推进,互联网大数据的应用价值变得多样化。因此,互联网大数据成为大数据技术教学和研究应用的重要数据源。 编者于2020年出版的《Python爬虫大数据采集与挖掘微课视频版》,以互联网大数据的采集与挖掘为主题,介绍相关技术基础、大数据采集技术、大数据挖掘及应用技术。本书(第2版)进一步丰富了多种互联网大数据的处理,完善了爬虫技术体系,提升了知识的完整性、逻辑性和实用性。 在内容安排上,本书涵盖Web应用架构技术、Web页面及相关技术、各种爬虫采集技术、Web信息提取技术、大数据处理与挖掘以及应用技术。在爬虫技术上,本书涵盖各种不同类型的爬虫,包括普通爬虫、动态爬虫、主题爬虫、Deep Web爬虫以及微博爬虫。在大数据处理方面,本书涵盖文本、社交网络、时间序列等不同类型数据处理。在应用方面,本书以三种典型的Web信息采集与处理为例,介绍了爬虫技术的应用模式与Python实现方法。 本书作为一本产学兼顾的教材,具有如下特色。 (1) 以互联网大数据技术为主线,将Web应用技术、各种页面采集的共性技术与特有技术、大数据处理与挖掘以及爬虫合规性等相关技术有机地结合在一起,涉及当前互联网Web空间的典型应用,构成完整的大数据采集和挖掘的知识体系。 (2) 在互联网大数据的采集技术中,完整系统地涵盖了普通爬虫、动态爬虫、主题爬虫、Deep Web爬虫以及微博数据采集,既强调爬虫抓取数据的能力,也凸显爬虫采集互联网大数据的合规性技术,有利于读者全面理解网络爬虫大数据技术及其应用。 (3) 秉承“授人以鱼,不如授人以渔”的总体思路,本书将理论与实践相结合,书中既有相关技术原理的介绍,也包含大量的Python实现技术、开源架构等方面的介绍,提供了45个与大数据采集挖掘相关的Python程序,读者既能理解技术原理,又能动手实践。 本书分为四部分,共12章,涵盖互联网大数据采集与挖掘的基础、技术和应用,各章的内容安排如下。 第一部分为概述,包括第1章。 第1章对大数据采集与挖掘的重要性、技术体系、应用现状、合规性以及技术发展进行概述,强调了互联网大数据与大模型之间的紧密联系。 第二部分为基础篇,包括第2章和第3章。 第2章介绍Web页面及相关处理技术,包括HTML规范、编码体系与规范、正则表达式以及与爬虫程序设计相关的主要Python程序基础。 第3章对Web应用架构与协议进行介绍,包括常用的Web服务器软件、Web应用架构、Robots协议、HTTP协议、状态保持技术等与爬虫密切相关的技术。 第三部分为技术与实现篇,包括第4~10章。 第4章对普通爬虫页面采集技术与Python实现进行介绍,包括普通爬虫的体系架构、Web服务器连接器、超链接及域名提取与过滤、爬行策略与实现以及爬虫的多线程技术等。 第5章介绍动态页面采集技术与Python实现,包括动态页面内容的生成与交互、动态页面采集的若干种典型方法和Python实现技术。 第6章针对Web页面信息提取技术,介绍面向HTML和JSON类型文本的抽取技术原理、典型开源框架应用,同时给出三种Web数据存储方法。 第7章介绍主题爬虫页面采集技术与Python实现,涉及主题爬虫的使用场景与技术框架、主题表示和建模、主题相关度计算等。 第8章是关于Deep Web的数据采集技术及实现。 第9章是关于微博信息的采集方法及实现,主要包括通过API获取微博信息和通过爬虫技术获取微博信息两种方法。 第10章介绍反爬虫的常用技术,以及针对这些反爬虫技术的一些主要应对措施和爬虫对抗技术。 第四部分为大数据挖掘与应用篇,包括第11章和第12章。 第11章围绕互联网大数据处理与挖掘技术,介绍面向文本、社交网络、时间序列数据的处理方法,突出文本预处理、文本表示、文本情感分析、文本分类、聚类、主题建模等重点技术。 第12章介绍三种典型的大数据采集技术应用案例,包括新闻舆情监测、Web网站自动化测试和酒店评论文本挖掘。 为便于教学,本书提供丰富的配套资源,包括教学大纲、教学课件、电子教案、程序源码、习题答案和微课视频。 资源下载提示 课件等资源: 扫描封底的“图书资源”二维码,在公众号“书圈”下载。 素材(源码)等资源: 扫描目录上方的二维码下载。 微课视频: 扫描封底的文泉云盘防盗码,再扫描书中相应章节的视频讲解二维码,可以在线学习。 全书由曾剑平负责内容安排、统稿,由互联网大数据处理技术和应用研究领域的一线人员参与编写。段江娇参与编写了 第1、第4、第5章,廖含月编写了第2章的部分内容,孟元编写了第12章部分例子的程序及相关文字说明,曾睿编写了第11章部分例子的程序,肖杨实现了Web网站自动化测试方法,其他部分由曾剑平编写,曾睿对全书进行了校对。清华大学出版社的编辑们为本书的出版花费了很多心思。 本书的编写也得到了复旦大学计算机科学技术学院和复旦大学教务处的大力支持。 本书第1版获得第二届复旦大学优秀教材奖(2024)。 此外,在本书的编写过程中也采纳了读者对第1版的反馈意见,在此一并表示衷心的感谢。需要特别提到的是,为了便于读者理解相关技术,书中选择若干互联网网站页面采集作为实例,特别向这些网站表示感谢。 本次改版完善了爬虫采集与挖掘的技术体系,但仍难以完美,恳请读者不吝批评指正,以利于今后继续修订完善。 读者可关注微信公众号IntBigData(“互联网大数据处理技术与应用”),订阅编者在教学中的相关经验和做法,并与编者互动。 编者2024年10月
more >