Python 3网络爬虫实战
基于Python 3.8,详解网络爬虫技术

作者:胡松涛

定价:79元

印次:1-2

ISBN:9787302557340

出版日期:2020.08.01

印刷日期:2021.07.20

图书责编:夏毓彦

图书分类:零售

电子书
在线购买
分享
内容简介
作者简介
前言序言
资源下载
查看详情 查看详情 查看详情

本书分为8章,内容包括Python的开发环境、爬虫的基础原理和概念、数据解析与存贮、简单爬虫的使用、PyQuery模块、Scrapy框架、Beautiful Soup框架开发出不同的网络爬虫。用实例显示出不同框架的优缺点,供读者学习选择。

胡松涛,高级工程师,参与多个Linux开源项目,github知名代码分享者,活跃于国内著名的多个开源论坛。

前 言 随着计算机技术飞速发展,人们对计算机使用技能的要求越来越高。在编写软件时,大家既希望有超高的效率,又希望这门语言简单易用。这种鱼与熊掌皆得的要求的确很高,Python编程语言恰好符合这么苛刻的要求。 Python的执行效率仅比效率之王C略逊一筹,在简单易用方面Python也名列三甲。可以说,Python在效率和简单之间达到了平衡。另外,Python还是一门胶水语言,可以将其他编程语言的优点融合在一起,达到1+1>2的效果。这也是Python如今使用人数越来越多的原因。 Python语言发展迅速,在各行各业都发挥了独特的作用。在各大企业、学校、机关都运行着Python明星程序。但就个人而言,运用Python最多的还是网络爬虫(这里的爬虫仅涉及从网页提取数据,不涉及深度、广度算法的爬虫搜索)。在网络上经常更新的数据,无须每次都打开网页浏览,使用爬虫程序可以一键获取数据,下载保存后分析。考虑到Python爬虫在网络上的资料虽多,但大多都不成系统,难以提供系统、有效的学习。因此,作者抛砖引玉,编写了这本有关Python网络爬虫的书,以供读者学习参考。 Python简单易学,Python爬虫也不复杂,只需要了解Python的基本操作即可自行编写。本书将介绍几种不同类型的Python爬虫,可以针对不同情况的站点进行数据收集。 本书特色 ? 附带源代码。为了便于读者理解本书内容,本书提供源代码,供读者下载使用。读者可通过代码学习开发思路,并在此基础上精简优化代码。 ? 涵盖Linux和Windows上模块的安装和配置。本书包含Python模块源的配置、模块...

暂无课件

样章下载

暂无网络资源

扫描二维码
下载APP了解更多

目录
荐语
查看详情 查看详情
目  录

第1章  Python环境配置 1

1.1  Python简介 1

1.1.1  Python的历史由来 1

1.1.2  Python的现状 2

1.1.3  Python的应用 2

1.2  Python 3.8.0开发环境配置 4

1.2.1  在Windows下安装Python 4

1.2.2  在Windows下安装配置pip 8

1.2.3  在Linux下安装Python 9

1.2.4  在Linux下安装配置pip 11

1.2.5  永远的hello world 15

1.3  本章小结 19

第2章  爬虫基础快速入门 20

2.1  HTTP基本原理 20

2.1.1  URI和URL 20

2.1.2  超文本 21

2.1.3  HTTP和HTTPS 21

2.1.4  HTTP请求过程 22

2.1.5  请求 24

2.1.6  响应 26

2.2  网页基础 27

2.2.1  网页的组成 27

2.2.2  网页的结构 28

2.2.3  节点树及节点间的关系 30

2.2.4  选择器 36

2.3  爬虫的基本原理 37

2.3.1  爬虫概述 37

2.3.2  能抓取什么样的数据 37

2.3.3  JavaScript渲染页面 38

2.4  会话和Cookies 39

2.4.1  静态网页和动态网页 40

2.4.2  无状态HTTP 41

2.4.3  常见误区 42

2.5  代理的基本原理 42

2.5.1  基本原理 42

2.5.... 查看详情

 本书详解网络爬虫的技术基础、Python常用IDE的使用、Python数据的存储、Python爬虫常用模块、Scrapy爬虫、BeautifulSoup爬虫、PyQuery模块、Selenium模拟浏览器、PySpider框架图片验证识别、爬取App、爬虫与反爬虫等内容。本书内容通俗易懂,方便读者快速掌握Python 3网络爬虫技术。 查看详情