清华大学出版社--图书详情

+教师申领样书

首页 > 图书 > 图书详情

Python爬虫技术——深入理解原理、技术与开发

JetBrains官大中华区市场部经理赵磊作序！超过300个实战案例，10万行源代码，22个综合实战项目，海量学习资料！网络资源处为本书源代码，提取码：c0uk

作者：李宁

丛书名：宁哥大讲堂

定价：89元

印次：1-7

ISBN：9787302535683

出版日期：2020.01.01

印刷日期：2023.08.01

图书责编：盛东亮

图书分类：零售

电子书

在线购买

京东天猫电子书

内容简介

作者简介

前言序言

资源下载

查看详情查看详情查看详情

本书从实战角度系统讲解 Python爬虫的核心知识点，并通过大量的真实项目让读者熟练掌握 Python爬虫技术。本书用 20多个实战案例，完美演绎了使用各种技术编写 Python爬虫的方式，读者可以任意组合这些技术，完成非常复杂的爬虫应用。全书共 20章，分为 5篇。第 1篇基础知识（第 1、2章），主要包括 Python运行环境的搭建、 HTTP基础、网页基础（ HTML、CSS、JavaScript等）、爬虫的基本原理、 Session与 Cookie。第 2篇网络库（第 3～ 6章），主要包括网络库 urllib、urllib3、requests和 Twisted的核心使用方法，如发送 HTTP请求、处理超时、设置 HTTP请求头、搭建和使用代理、解析链接、 Robots协议等。第 3篇解析库（第 7～ 10章），主要包括 3个常用解析库（ lxml、Beautiful Soup和 pyquery）的使用方法，同时介绍多种用于分析 HTML代码的技术，如正则表达式、 XPath、CSS选择器、方法选择器等。第 4篇数据存储（第 11、12章），主要包括 Python中数据存储的解决方案，如文件存储和数据库存储，其中数据库存储包括多种数据库，如本地数据库 SQLite、网络数据库 MySQL以及文档数据库 MongoDB。第 5篇爬虫高级应用（第 13～ 20章），主要包括 Python爬虫的一些高级技术，如抓取异步数据、 Selenium、Splash、抓取移动 App数据、 Appium、多线程爬虫、爬虫框架 Scrapy，最后给出一个综合的实战案例，综合了 Python爬虫、数据存储、 PyQt5、多线程、数据可视化、Web等多种技术实现一个可视化爬虫。本书可以作为广大计算机软件技术开发者、互联网技术研究人员学习“爬虫技术”的参考用书。也可以作为高等院校计算机科学与技术、软件工程、人工智能等专业的教学参考用书。

李宁欧瑞科技创始人&CEO，宁哥教育创始人，东北大学计算机专业硕士。曾任国内某大型软件公司项目经理、宁哥教育教学总监、51CTO学院金牌讲师、CSDN特级讲师。从事软件研究和开发超过15年，一直从事Python、人工智能、区块链、JavaScript、Node.js、Java以及跨平台技术的研究和技术指导工作，对国内外相关领域的技术、理论和实践有很深的理解和研究。

PREFACE　前言 Python现在非常火爆。但 Python就和英语一样，如果只会 Python语言，就相当于只能用英语进行日常会话。然而，真正的英语高手是可以作为专业领域翻译的，如 IT、金融、数学等专业领域。 Python也是一样，光学习 Python语言是不行的，要想找到更好的工作，或得到更高的薪水，需要学会用 Python做某一领域的应用。现在 Python应用的热门领域比较广，例如人工智能，不过人工智能不光涉及 Python语言本身的技术，还涉及数学领域的知识，虽然比较火爆，但绝对不是短时间可以掌握的。然后有一个领域与人工智能的火爆程度相当，但不像人工智能那样难入门，这就是爬虫领域。为什么爬虫领域如此火爆呢？其实爬虫的基本功能就是从网上下载各种类型的数据（如 HTML、图像文件等）。但不要小瞧这些下载的数据，因为这些数据将成为很多应用的数据源。例如，著名的 Google搜索引擎，每天都会有数以亿计的查询请求，而搜索引擎为这些请求返回的数据，都是来源于强大的爬虫。编写搜索引擎的第一步就是通过爬虫抓取整个互联网的数据，然后将这些数据库保存到本地（以特定的数据格式），接下来就是对这些数据进行分析整理。然后才可以通过搜索引擎进行查询。虽然搜索引擎的实现技术非常多，也非常复杂，但爬虫是 1，其他的所有技术都是 0，如果没有爬虫搜集数据，再强大的分析程序也毫无用武之地。除了搜索引擎外，人工智能中的重要分支深度学习也需要爬虫抓取的数据来训练模型。例如，要想训练一个识别金字塔的深度学习模型，就需要大量与金字塔相关的图片进行训练。最简单的方式，就是使用百度或谷歌搜...

课件下载

暂无样章

网络资源

扫描二维码
下载APP了解更多

荐语

查看详情查看详情

第 1篇基础知识

第 1章开发环境配置 . 2

1.1 安装官方的 Python运行环境 .2

1.2 配置 PATH环境变量.5

1.3 安装 Anaconda Python开发环境 .6

1.4 安装 PyCharm .7

1.5 配置 PyCharm .8

1.6 小结 . 10

第 2章爬虫基础.11

2.1 HTTP基础 11

2.1.1 URI和 URL 11

2.1.2 超文本 12

2.1.3 HTTP与 HTTPS . 12

2.1.4 HTTP的请求过程 . 15

2.1.5 请求 17

2.1.6 响应 20

2.2 网页基础 23

2.2.1 HTML . 23

2.2.2 CSS 24

2.2.3 CSS选择器. 25

2.2.4 JavaScript . 27

2.3 爬虫的基本原理 27

2.3.1 爬虫的分类 . 27

2.3.2 爬虫抓取数据的方式和手段 . 28

2.4 Session与 Cookie . 28

2.4.1 静态页面和动态页面 . 29

2.4.2 无状态 HTTP与 Cookie 30

2.4.3 利用 Session和 Cookie保持状态 . 30

2.4.4 查看网站的 Cookie 31

2.4.5 HTTP状态何时会失效 32

CONTENTS 目录

2.5 实战案例：抓取所有的网络...

JetBrains大中华区市场部经理赵磊作序！超过300个实战案例，10万行源代码，22个综合实战项目，海量学习资料，1000套中英文简历模板。全书内容涵盖：
李宁 “私房菜谱”
 Python爬虫基础知识
 Python网络库
 Python解析库
 Python数据存储
 Python异步数据抓取
 Python移动App数据抓取
 Python可见即可爬
 Python Scrapy实战
 Python项目实战
李宁“实战项目”
 抓取小说目录与正文
 抓取豆瓣网图书榜单
 抓取房屋租赁信息
 抓取豆瓣网音乐排行榜
 抓取百度网站图片搜索中的图片
 抓取QQ空间说说
 可视化爬虫抓取和分析当当网图书评论

关于我们

新闻资讯

服务支持

关于我们

新闻资讯

服务支持