清华大学出版社--图书详情

+教师申领样书

首页 > 图书 > 图书详情

Python爬虫大数据采集与挖掘（第2版·微课视频版）

提供PPT课件，教案，大纲，教学计划，源码和数据，视频，题库，思政，爬虫案例

作者：曾剑平

丛书名：大数据与人工智能技术丛书

定价：59.8元

印次：2-5

ISBN：9787302678250

出版日期：2025.01.01

印刷日期：2026.07.24

图书责编：王冰飞

图书分类：教材

电子书

在线购买

京东天猫电子书

内容简介

作者简介

前言序言

资源下载

查看详情查看详情查看详情

"本书围绕大数据采集与挖掘，对采集技术的相关基础、技术原理、Python实现技术、大数据挖掘与应用方法进行了系统介绍。书中全面、完整地覆盖了各种类型的网络爬虫及相关的信息处理挖掘技术，并提供了45个与爬虫技术和应用相关的Python程序。全书共分为四部分，即概述、基础篇、技术与实现篇、大数据挖掘与应用篇。第一部分（第1章）是概述，指出利用Python采集互联网大数据的重要性，介绍了相关技术研究、技术体系、采集技术的合规性及应用现状等，分析了大模型对互联网大数据技术的影响；第二部分（第2、3章）是基础篇，包括Web服务器的应用架构以及HTTP、Robots、HTML、页面编码等相关协议和规范；第三部分（第4~10章）是技术与实现篇，全面介绍普通网络爬虫技术、动态页面采集方法、主题爬虫技术、Deep Web爬虫、微博信息采集、Web信息提取以及反爬虫技术等，内容涵盖各种爬虫技术实现方法及Python实例；第四部分（第11、12章）是大数据挖掘与应用篇，介绍文本、情感、社交网络和时间序列等典型大数据处理与挖掘技术及应用模式，并以新闻舆情监测、 Web自动化测试、酒店评论文本挖掘为例介绍Python爬虫应用构建方法，将本书介绍的一些关键技术、模型和工具贯穿在一起。 "

前言 党的二十大报告强调： “加快发展数字经济，促进数字经济和实体经济深度融合”，互联网大数据在数字经济中占据着核心地位，是推动经济社会发展的关键生产要素。互联网数据具有典型的大数据特征，即数据量大、数据类型多样化、数据流动性快，并且随着“互联网+”和数字经济国家战略的推进，互联网大数据的应用价值变得多样化。因此，互联网大数据成为大数据技术教学和研究应用的重要数据源。编者于2020年出版的《Python爬虫大数据采集与挖掘微课视频版》，以互联网大数据的采集与挖掘为主题，介绍相关技术基础、大数据采集技术、大数据挖掘及应用技术。本书(第2版)进一步丰富了多种互联网大数据的处理，完善了爬虫技术体系，提升了知识的完整性、逻辑性和实用性。在内容安排上，本书涵盖Web应用架构技术、Web页面及相关技术、各种爬虫采集技术、Web信息提取技术、大数据处理与挖掘以及应用技术。在爬虫技术上，本书涵盖各种不同类型的爬虫，包括普通爬虫、动态爬虫、主题爬虫、Deep Web爬虫以及微博爬虫。在大数据处理方面，本书涵盖文本、社交网络、时间序列等不同类型数据处理。在应用方面，本书以三种典型的Web信息采集与处理为例，介绍了爬虫技术的应用模式与Python实现方法。本书作为一本产学兼顾的教材，具有如下特色。 (1) 以互联网大数据技术为主线，将Web应用技术、各种页面采集的共性技术与特有技术、大数据处理与挖掘以及爬虫合规性等相关技术有机地结合在一起，涉及当前互联网Web空间的典型应用，构成完整的大数据采集和挖掘的知识体系。 (2) 在互联网大数据的采集技术中，...

课件下载

样章下载

暂无网络资源

版权信息

扫描二维码
下载APP了解更多

荐语

查看详情查看详情

源码下载

额外赠送的资源

目录

第一部分概述

第1章大数据采集与挖掘概述

1.1互联网大数据与采集

1.1.1互联网大数据来源

1.1.2互联网大数据的特征

1.2Python爬虫大数据采集技术的重要性

1.3爬虫技术研究及应用现状

1.4爬虫技术的应用场景

1.5爬虫大数据采集与挖掘的技术体系

1.5.1技术体系构成

1.5.2相关技术

1.5.3爬虫的5个技术特性

1.5.4技术评价方法

1.6爬虫大数据采集与挖掘的合规性

1.7爬虫大数据采集与挖掘技术展望

1.7.1爬虫采集技术展望

1.7.2大模型对互联网大数据技术的影响

思考题

第二部分基础篇

第2章Web页面及相关处理技术

2.1HTML规范

2.1.1HTML标签

2.1.2HTML整体结构

2.1.3CSS简述

2.1.4常用标签

2.1.5HTML的版本进化

2.2编码体系与规范

2.2.1ASCII

2.2.2gb2312/gbk

2.2.3unicode

2.2.4utf8

2.2.5网页中的编码和Python处理

2.3Python正则表达式

2.4相关的Python程序基础

思考题

第3章Web应用架构与协议

3.1常用的Web服务器软件

3.1.1流行的Web服务器软件

3.1.2在Python中配置Web服务... 查看详情

本书围绕大数据采集与挖掘，对采集技术的相关基础、技术原理、Python实现技术、大数据挖掘与应用方法进行了系统介绍。本书配套资源丰富，包括教学大纲、教学课件、电子教案、程序源码、习题答案、微课视频和在线题库。

查看详情

同系列产品

查看详情

关于我们

新闻资讯

服务支持

关于我们

新闻资讯

服务支持

同系列产品