清华大学出版社--图书详情

+教师申领样书

首页 > 图书 > 图书详情

数据采集技术

提供课件、源码，咨询QQ：2301891038（仅限教师）。本课题的研究基于广东轩辕网络知名企业提供技术服务为基础，以网络工程为探索平台进行的教学改革实践，校企合作共同开发优质课程资源，开发的教材、教学资源符合国内高校教学规律，以学时为单位完成资源的制作与开发

作者：廖大强

丛书名：大数据系列丛书

定价：49.8元

印次：1-4

ISBN：9787302600589

出版日期：2022.04.01

印刷日期：2024.06.05

图书责编：郭赛

图书分类：教材

电子书

在线购买

京东天猫电子书

内容简介

作者简介

前言序言

资源下载

查看详情查看详情查看详情

本书介绍基于Python语言的网络数据采集技术的相关知识，并为采集网络中的各种数据类型提供全面指导。第1章重点介绍Scrapy框架及配置方法;第2～6章重点介绍网络数据采集的基本原理,包括如何利用Python从网络服务器请求信息，如何对服务器的响应进行基本处理，以及如何通过自动化的手段与网站进行交互;第7、8章介绍登录表单与验证码的数据采集和自动化处理，以及并行多线程网络数据的采集方法。本书还提供了多个实验，以帮助读者巩固所学内容。本书适合作为普通高等院校计算机程序设计、大数据课程的教材，也可作为从事Web数据采集的软件开发人员和研究人员的参考书。

廖大强，男，硕士，高级实验师，广东南华工商职业学院，云计算技术与应用专业带头人。一直从事信息技术类专业课教学，讲授课程包括计算机网络、信息安全等

前言互联网包含迄今为止最有用的数据集，并且大部分数据集都可以免费访问，但是这些数据难以复用，它们被嵌入在网站的结构和样式中，需要抽取出来才能使用。从网页中抽取数据的过程称为网络数据采集。随着越来越多的信息被发布到网络上，网络数据采集也变得越来越有用。本书可作为数据科学与大数据技术专业、大数据技术与应用专业及相关专业的教学用书。针对应用型本科专业的特点，本书采用“教、学、做一体化”的教学方法，为培养高端应用型人才提供合适的教学与训练方法。本书以实际项目转化的案例为主线，按“学做合一”的指导思想，引入构思、设计、实现、运作（Conceive、Design、Implement、Operate，CDIO）工程教育方法，在完成技术讲解的同时，对读者提出相应的自学要求和指导。读者在阅读本书的过程中，不仅能快速完成基本技术的学习，而且能按工程化实践的要求进行项目的开发，并实现相应的功能。本书作者拥有多年实际项目的开发经验和丰富的一线教育教学经验，完成了多轮次、多类型的教育教学改革与研究工作。本书在编写过程中得到了广东第二师范学院邬依林教授的大力支持。本书的主要特点如下。 1. 实际项目开发与理论教学紧密结合为使读者能快速掌握相关技术并按实际项目的开发要求熟练运用相关知识，本书在各章节的重要知识点后面根据实际项目设计了相关实验。 2. 组织合理、有序本书按照由浅入深的顺序，在逐渐丰富系统功能的同时引入了相关技术与知识，使技术讲解与训练合二为一，有助于“教、学、做一体化”的实施。为方便读者使用，书中全部实例的源码及PPT课件均免费提供给读者，读者可登录清华...

课件下载

样章下载

暂无网络资源

版权信息

扫描二维码
下载APP了解更多

荐语

查看详情查看详情

第1章绪论1

1.1数据采集概述1

1.1.1什么是数据采集1

1.1.2数据采集的典型

应用场景2

1.1.3数据采集技术框架3

1.1.4数据采集面临的

挑战6

1.2网络爬虫概述6

1.2.1什么是网络爬虫6

1.2.2网络爬虫的应用6

1.2.3网络爬虫的结构7

1.2.4网络爬虫的组成7

1.2.5网络爬虫的类型8

1.2.6实现网络爬虫的

技术10

1.3Scrapy爬虫10

1.3.1Scrapy框架10

1.3.2Scrapy的常用

组件11

1.3.3Scrapy工作流12

1.3.4其他Python框架12

1.3.5Scrapy的安装与

配置13

1.3.6Windows 7下的

安装配置13

1.3.7Linux（Cent OS）

下的安装配置18

本章小结22

习题22第2章采集网页数据23

2.1采集网页分析23

2.1.1HTTP概述23

2.1.2HTTP消息23

2.2用Python实现HTTP

请求25

2.2.1urllib3/urllib的

实现25

2.2.2httplib/urllib的

实现27

2.2.3第三方库Requests

方式27

2.3静态网页采集29

2.3.1寻找数据特征30

2.3.2获取响应内容31

2.3.3定制Requests32

2.3.4代码解析35

2.4动态网页采集37

2.4.1找到JavaScript

请求的数据接口38

2.4.2请求和解析数据

接口数据41

2.5实验1: HT... 查看详情

本书可作为应用型本科高校的“数据科学与大数据技术”“大数据技术与应用”专业的教学用书，提供教学课件PPT、教学大纲、源代码、习题参考答案等配套资源。查看详情

同系列产品

查看详情

关于我们

新闻资讯

服务支持

关于我们

新闻资讯

服务支持

同系列产品