Python爬虫技术——深入理解原理、技术与开发
JetBrains官大中华区市场部经理赵磊作序!超过300个实战案例,10万行源代码,22个综合实战项目,海量学习资料!网络资源处为本书源代码,提取码:c0uk

作者:李宁

丛书名:宁哥大讲堂

定价:89元

印次:1-7

ISBN:9787302535683

出版日期:2020.01.01

印刷日期:2023.08.01

图书责编:盛东亮

图书分类:零售

电子书
在线购买
分享
内容简介
作者简介
前言序言
资源下载
查看详情 查看详情 查看详情

本书从实战角度系统讲解 Python爬虫的核心知识点,并通过大量的真实项目让读者熟练掌握 Python爬虫技术。本书用 20多个实战案例,完美演绎了使用各种技术编写 Python爬虫的方式,读者可以任意组合这些技术,完成非常复杂的爬虫应用。 全书共 20章,分为 5篇。第 1篇基础知识(第 1、2章),主要包括 Python运行环境的搭建、 HTTP基础、网页基础( HTML、CSS、JavaScript等)、爬虫的基本原理、 Session与 Cookie。第 2篇网络库(第 3~ 6章),主要包括网络库 urllib、urllib3、requests和 Twisted的核心使用方法,如发送 HTTP请求、处理超时、设置 HTTP请求头、搭建和使用代理、解析链接、 Robots协议等。第 3篇解析库(第 7~ 10章),主要包括 3个常用解析库( lxml、Beautiful Soup和 pyquery)的使用方法,同时介绍多种用于分析 HTML代码的技术,如正则表达式、 XPath、CSS选择器、方法选择器等。第 4篇数据存储(第 11、12章),主要包括 Python中数据存储的解决方案,如文件存储和数据库存储,其中数据库存储包括多种数据库,如本地数据库 SQLite、网络数据库 MySQL以及文档数据库 MongoDB。第 5篇爬虫高级应用(第 13~ 20章),主要包括 Python爬虫的一些高级技术,如抓取异步数据、 Selenium、Splash、抓取移动 App数据、 Appium、多线程爬虫、爬虫框架 Scrapy,最后给出一个综合的实战案例,综合了 Python爬虫、数据存储、 PyQt5、多线程、数据可视化、Web等多种技术实现一个可视化爬虫。 本书可以作为广大计算机软件技术开发者、互联网技术研究人员学习“爬虫技术”的参考用书。也可以作为高等院校计算机科学与技术、软件工程、人工智能等专业的教学参考用书。

李宁 欧瑞科技创始人&CEO,宁哥教育创始人,东北大学计算机专业硕士。曾任国内某大型软件公司项目经理、宁哥教育教学总监、51CTO学院金牌讲师、CSDN特级讲师。从事软件研究和开发超过15年,一直从事Python、人工智能、区块链、JavaScript、Node.js、Java以及跨平台技术的研究和技术指导工作,对国内外相关领域的技术、理论和实践有很深的理解和研究。

PREFACE  前 言 Python现在非常火爆。但 Python就和英语一样,如果只会 Python语言,就相当于只能用英语进行日常会话。然而,真正的英语高手是可以作为专业领域翻译的,如 IT、金融、数学等专业领域。 Python也是一样,光学习 Python语言是不行的,要想找到更好的工作,或得到更高的薪水,需要学会用 Python做某一领域的应用。 现在 Python应用的热门领域比较广,例如人工智能,不过人工智能不光涉及 Python语言本身的技术,还涉及数学领域的知识,虽然比较火爆,但绝对不是短时间可以掌握的。然后有一个领域与人工智能的火爆程度相当,但不像人工智能那样难入门,这就是爬虫领域。 为什么爬虫领域如此火爆呢?其实爬虫的基本功能就是从网上下载各种类型的数据(如 HTML、图像文件等)。但不要小瞧这些下载的数据,因为这些数据将成为很多应用的数据源。例如,著名的 Google搜索引擎,每天都会有数以亿计的查询请求,而搜索引擎为这些请求返回的数据,都是来源于强大的爬虫。编写搜索引擎的第一步就是通过爬虫抓取整个互联网的数据,然后将这些数据库保存到本地(以特定的数据格式),接下来就是对这些数据进行分析整理。然后才可以通过搜索引擎进行查询。虽然搜索引擎的实现技术非常多,也非常复杂,但爬虫是 1,其他的所有技术都是 0,如果没有爬虫搜集数据,再强大的分析程序也毫无用武之地。 除了搜索引擎外,人工智能中的重要分支深度学习也需要爬虫抓取的数据来训练模型。例如,要想训练一个识别金字塔的深度学习模型,就需要大量与金字塔相关的图片进行训练。最简单的方式,就是使用百度或谷歌搜...

课件下载

暂无样章

网络资源

扫描二维码
下载APP了解更多

目录
荐语
查看详情 查看详情
第 1篇基础知识

第 1章开发环境配置 . 2 

1.1 安装官方的 Python运行环境 .2 

1.2  配置 PATH环境变量.5 

1.3 安装 Anaconda Python开发环境 .6 

1.4 安装 PyCharm .7 

1.5 配置 PyCharm .8 

1.6  小结 . 10

第 2章爬虫基础.11 

2.1 HTTP基础 11 

2.1.1  URI和 URL  11 

2.1.2  超文本  12 

2.1.3  HTTP与 HTTPS . 12 

2.1.4  HTTP的请求过程 . 15 

2.1.5  请求  17 

2.1.6  响应  20 

2.2 网页基础  23 

2.2.1  HTML . 23 

2.2.2  CSS  24 

2.2.3  CSS选择器. 25 

2.2.4  JavaScript . 27 

2.3 爬虫的基本原理  27 

2.3.1  爬虫的分类 . 27 

2.3.2  爬虫抓取数据的方式和手段 . 28 

2.4 Session与 Cookie . 28 

2.4.1  静态页面和动态页面 . 29 

2.4.2  无状态 HTTP与 Cookie  30 

2.4.3  利用 Session和 Cookie保持状态 . 30 

2.4.4  查看网站的 Cookie  31 

2.4.5  HTTP状态何时会失效  32 

CONTENTS 目 录

2.5 实战案例:抓取所有的网络...

JetBrains大中华区市场部经理赵磊作序!超过300个实战案例,10万行源代码,22个综合实战项目,海量学习资料,1000套中英文简历模板。全书内容涵盖:
李宁 “私房菜谱”
 Python爬虫基础知识
 Python网络库
 Python解析库
 Python数据存储
 Python异步数据抓取
 Python移动App数据抓取
 Python可见即可爬
 Python Scrapy实战
 Python项目实战
李宁“实战项目”
 抓取小说目录与正文
 抓取豆瓣网图书榜单
 抓取房屋租赁信息
 抓取豆瓣网音乐排行榜
 抓取百度网站图片搜索中的图片
 抓取QQ空间说说
 可视化爬虫抓取和分析当当网图书评论