清华大学出版社--图书前言

图书前言

前言

随着计算机技术飞速发展，人们对计算机使用技能的要求越来越高。在编写软件时，大家既希望有超高的效率，又希望这门语言简单易用。这种鱼与熊掌皆得的要求的确很高，Python编程语言恰好符合这么苛刻的要求。

Python的执行效率仅比效率之王C略逊一筹，在简单易用方面Python也名列三甲。可以说，Python在效率和简单之间达到了平衡。另外，Python还是一门胶水语言，可以将其他编程语言的优点融合在一起，达到1+1>2的效果。这也是Python如今使用人数越来越多的原因。

Python语言发展迅速，在各行各业都发挥了独特的作用。在各大企业、学校、机关都运行着Python明星程序。但就个人而言，运用Python最多的还是网络爬虫（这里的爬虫仅涉及从网页提取数据，不涉及深度、广度算法的爬虫搜索）。在网络上经常更新的数据，无须每次都打开网页浏览，使用爬虫程序可以一键获取数据，下载保存后分析。考虑到Python爬虫在网络上的资料虽多，但大多都不成系统，难以提供系统、有效的学习。因此，作者抛砖引玉，编写了这本有关Python网络爬虫的书，以供读者学习参考。

Python简单易学，Python爬虫也不复杂，只需要了解Python的基本操作即可自行编写。本书将介绍几种不同类型的Python爬虫，可以针对不同情况的站点进行数据收集。

本书特色

? 附带源代码。为了便于读者理解本书内容，本书提供源代码，供读者下载使用。读者可通过代码学习开发思路，并在此基础上精简优化代码。

? 涵盖Linux和Windows上模块的安装和配置。本书包含Python模块源的配置、模块的安装以及常用IDE的使用。

? 实战实例。通过常用的实例详细说明网络爬虫的编写过程。

本书内容

本书共12章，第1~4章介绍Python 3.8的基本安装、简单Python程序的编写、网络爬虫的基本原理以及网页数据的存储和读取。第5章介绍的Scrapy爬虫框架主要针对一般无须登录的网站，在爬取大量数据时使用Scrapy会很方便。第6章介绍的BeautifulSoup爬虫可以算作爬虫的“个人版”。BeautifulSoup爬虫主要针对一些爬取数据比较少、结构简单的网站。第7章介绍的PyQuery模块的主要功能是对页面进行快速爬取，重点是以jQuery的语法来操作解析 HTML 文档。第8章介绍的Selenium模块的主要功能是模拟浏览器，作用主要是针对JavaScript返回数据的网站。第9章介绍PySpider框架，通过UI界面与代码结合实现网站的爬取。第10~12章介绍一些比较分散的爬虫技术，如图片验证码识别、爬取部分App内容、反爬虫等。

修订说明

本书第2版使用了Python 3.6，由于Python 2当时还被官方支持，因此保留了一些Python 2.X的内容。但目前官方已经明确不再维护Python 2.X，所以本书进行了彻底更新，完全使用Python 3.8版本。同时也修订了代码，改正了一些因为目标网站改版而造成爬虫不能使用的问题。

源代码下载

本书示例源代码可扫描下边的二维码获得。

如果下载有问题，请联系booksaga@163.com，邮件主题为“Python 3网络爬虫实战”。

本书读者

? Python编程及Python网络爬虫的初学者

? 数据分析与挖掘技术的初学者

? 高等院校和培训学校相关专业的师生

著者

2020年3月

关于我们

新闻资讯

服务支持

关于我们

新闻资讯

服务支持

图书前言