





定价:59.9元
印次:1-2
ISBN:9787302633778
出版日期:2023.07.01
印刷日期:2024.08.01
图书责编:陈景辉
图书分类:教材
本书主要介绍Python爬虫编写的基础知识,以及对爬虫数据的存储、深入处理和分析。全书分为四部分: 第一部分为爬虫基础篇,第二部分为实战基础篇(9个案例),第三部分为框架应用篇(5个案例),第四部分为爬虫应用场景及数据处理篇(6个案例)。 本书由浅入深地介绍爬虫常用的方法和工具,以及对爬虫数据处理的应用和实现。但需要注意的是,爬虫的技术栈不仅包含这几部分,而且在实际工作中的细分方法也不尽相同。本书只是对目前爬虫技术中最为常用的一些知识点用案例的形式进行了分类和讲解,而更多的应用也值得读者在掌握一定的基础技能后进一步探索。 本书适合Python语言初学者、网络爬虫技术爱好者、数据分析从业人士以及高等学校计算机科学、软件工程等相关专业的师生阅读。
前言 网络爬虫又称为网络蜘蛛,是指按照某种规则在网络上爬取所需内容的脚本程序。它们被广泛用于互联网搜索引擎及各种网站的开发中,同时也是大数据和数据分析领域中的重要角色。众所周知,每个网页通常都包含其他网页的入口,网络爬虫则通过一个网址依次进入其他网址获取所需内容。爬虫可以按一定逻辑大批量采集目标页面内容,并对数据做进一步的处理,人们借此能够更好更快地获得并使用他们感兴趣的信息,从而方便地完成很多有价值的工作。 Python是一种解释型、面向对象的、动态数据类型的高级程序设计语言,Python语法简洁,功能强大,在众多高级语言中拥有十分出色的编写效率,同时还拥有活跃的开源社区和海量程序库,十分适合用来进行网络内容的爬取和处理。本书将以Python语言为基础,由浅入深地探讨网络爬虫技术,同时,通过具体的程序编写和实践来帮助读者了解和学习Python爬虫。 本书共包含20个案例,从内容上分为四部分,分别代表不同的爬虫阶段及场景,包括了Python爬虫编写的基础知识,以及对爬虫数据的存储、深入处理和分析。 第一部分爬虫基础篇。该部分简单介绍了爬虫的基本知识,便于读者掌握相关知识,对爬虫有基本的认识。 第二部分实战基础篇(9个案例)。该部分既有简单、容易实现的入门案例,也有改进的进阶案例。丰富的内容包括爬虫常用的多种工具及方法,覆盖了爬虫的请求、解析、清洗、入库等全部常用流程,是入门实践的最佳选择。 第三部分框架应用篇(5个案例)。该部分内容从爬虫框架的角度出发,介绍了几个常用框架的案例,重点介绍了Scrapy框架,以及基于Python...
目录
第一部分爬虫基础篇
第1章Python网络爬虫基础
1.1HTTP、HTML与JavaScript
1.1.1HTTP
1.1.2HTML
1.1.3JavaScript
1.2Requests的使用
1.2.1Requests简介
1.2.2使用Requests编写爬虫程序
1.3常见的网页解析工具
1.3.1BeautifulSoup
1.3.2XPath与lxml
1.4Scrapy框架与Selenium
1.4.1爬虫框架: Scrapy
1.4.2模拟浏览器: Selenium
1.5本章小结
第二部分实战基础篇
第2章爬取某游戏Top100选手信息
2.1JavaScript对象与JSON
2.2爬取方案分析
2.2.1方案一
2.2.2方案二
2.3本章小结
第3章爬取豆瓣电影简介
3.1确定信息源
3.2获取网页信息
3.3解析信息内容
3.4批量爬取网页信息
3.5本章小结
第4章爬取源代码练习评测结果
4.1网站分析
4.2编写爬虫
4.3运行并查看结果
4.4本章小结
第5章爬取网络中的小说和购物评论
5.1下载网络小说
5.1.1分析网页
5.1.2编写爬虫
5.1.3运行并查看TXT文件
5.2下载购物评论
5.2.1查看网络数据
5.2.2编写爬虫
5.2.3数据下载结果...
(2)循序渐进,生动简洁。从最简单的Python爬虫程序案例开始,在网络爬虫的核心主题之下一步步深入,兼顾内容的广度与深度。在行文中,使用生动简洁的阐述方式,力争详略得当。
(3)示例丰富,实战性强。网络爬虫是实践性、操作性非常强的技术,本书从生活实际出发,选取实用性、趣味性兼具的主题进行网络爬虫实践。
(4)内容新颖,不落窠臼。本书中程序代码均采用**的Python 3版本,并使用了目前主流的各种Python框架和库来编写程序,注重内容的时效性。网络爬虫需要动手实践才能真正理解,本书**程度地保证了代码与程序示例的易用性和易读性。
"