首页 > 图书中心 >图书详情

数据科学导论

提供课件、代码、教学大纲,咨询QQ:2301891038(仅限教师)

作者:石川、王啸、胡琳梅
丛书名:面向新工科专业建设计算机系列教材
定价:69
印次:1-6
ISBN:9787302569688
出版日期:2021.04.01
印刷日期:2024.03.11

本教材介绍数据科学的通识入门知识,可以作为高等院校大数据专业的专业基础课程教材。本教材以“建立知识体系、掌握基本原理、学会初级实践、了解相关技术”为原则,为计算机专业类学生深入学习数据科学和大数据技术奠定基础。本教材将系统讲授数据科学的基本概念和知识体系、数据分析的基本流程和方法(包括数据预处理,回归、聚类、分类等智能分析技术)、大数据分析的基本工具,并以Python语言为例,通过大量实例和练习讲授初级的数据分析技术。

more >

前言 近些年,各行各业聚集的“大数据”不仅对信息处理技术提出了挑战,而且深刻影响社会经济的各个方面。大数据时代的到来也催生一门新的学科——数据科学。数据科学是基于计算机科学、统计学、数学等学科的一门新兴的交叉学科,主要研究内容包括数据科学基础理论、数据预处理、数据计算和数据管理。作为一门新兴学科,很多学校开设了相关专业,也急需讲授其核心理论体系和应用实践的教材。本书顺应数据科学兴起的潮流,为数据科学与大数据及相关专业的学生,提供一本入门和导论性质的教材。 作者深入调研了现有的大数据教材和资料,结合十余年数据挖掘和机器学习等领域的科研实践以及“计算机导论”等计算机专业基础课程的教学实践经验,以“建立知识体系、掌握基本原理、学会初级实践、了解前沿技术”为原则,精心设计编写了本书。本书具有如下特色。 (1) 内容全面,重点突出。本书涵盖了数据科学的主要内容,包括基础理论、数学基础、分析方法、应用前沿和处理技术。同时,作者也从数据挖掘的视角着重强调了数据分析的基本方法和技能。 (2) 理论系统,实践丰富。本书比较系统地介绍了与数据科学紧密相关的基本理论和方法,并且配以丰富的实例进行讲解。作者以Python语言为例,配以大量实例详细讲解了数据分析的基本方法。 (3) 模块设计,灵活组合。本书划分为3个模块: 基础理论(第1~2章)、分析方法(第3~6章)、高级主题(第7~8章),3个模块相对独立,模块内部也是由浅入深。选择合适章节内容和讲授深度,可以支撑2~6学分的“数据科学导论”课程设置。 (4) 深入浅出,可读性强。本书尽量介绍数据科学最相关的内容和最基本的概念,并配以实例介绍本质含义;此外,还介绍了大量要深入学习的扩展阅读材料。本书面向具有基础的计算机相关知识的学生和科技工作者,力争概念通俗易懂,方法便于上手。 全书内容分为3部分,共8章。第一部分是数据科学的基本理论和数学基础,由第1~2章组成。 第1章是本书统领式的一章。主要介绍数据科学的产生背景、基础知识、基本理论以及数据科学家和数据科学的实践案例。通过串联数据和大数据的概念,阐述了人类社会的数据化进程;通过介绍数据科学的理论基础和应用实践引导读者在学习时应注重理论联系实际,学以致用。 第2章介绍数据科学研究中广泛使用的数学工具。主要介绍数据科学中需要用到的基础数学知识,包括线性代数、概率统计、优化理论和图论基础,并结合实例探讨它们的应用。 本书第二部分介绍数据科学中常用的数据分析方法,由第3~6章组成。 第3章介绍数据科学研究中主流的编程语言。全书的案例也都统一以Python语言讲解。本章涵盖Python的基本用法以及数据科学处理中重要库的使用。 第4章介绍数据科学处理中基本的数据预处理方法。本章是整个数据处理中的前期核心步骤,包括数据清洗、数据集成、数据归约、数据变换等技术,最后辅以一个实践案例具体阐述预处理的各个步骤。 第5章介绍数据科学研究中的基本机器学习模型。本章介绍机器学习的基本概念及主流的机器学习库,同时讲解回归、分类、神经网络等监督学习方法及聚类等无监督学习模型,每个模型均配有实例及代码演示。 第6章以实战案例系统总结前面章节的数据处理技术。首先介绍数据分析流程,继而给出4个具体的案例,包括Titanic生存预测、时间序列预测等,每个案例从问题分析开始,阐述数据预处理、机器学习模型使用、结果分析等完整流程。 本书第三部分介绍数据科学的应用前沿和处理技术,由第7~8章组成。 第7章围绕非结构化数据,分别对文本数据、图像视频数据、图结构数据的分析与应用方法展开介绍。此外,还简要介绍了数据可视化分析技术、应用场景、常用的可视化分析工具。 第8章介绍大数据处理的主流工具。主要介绍了云计算的相关概念和特点、核心技术虚拟化和多个商用的云计算平台;讨论了大数据处理工具Hadoop与Spark这两个框架的基本概念、核心算法以及生态环境。本章还提供了一个完整的搭建并使用Hadoop集群进行数据处理的应用案例。 本书可以作为数据科学与大数据及相关专业学生的数据科学和大数据分析等课程的入门教程,也可以作为科技工作者学习大数据分析的参考材料。作为大学教材使用,可以有短学时(2~3学分)和长学时(4~6学分)两种教学计划。针对短学时教学计划,可以选择第1、3~6章讲授,其他章节选讲;针对长学时教学计划,可以讲授全部内容,并且增加上机实践环节。本书还提供了丰富的教学资料供教师教学参考和学生学习使用,包括教学幻灯片和所有实例源代码等资料。这些资料可以从www.shichuan.org下载使用。 石川负责全书框架设计和统稿,并编写了第1章;王啸负责编写第3~6章;胡琳梅负责编写第2、7、8章;王柏对全书进行了校对。本书编写过程中得到了北京邮电大学计算机学院数据科学与服务中心的老师们的大力支持和帮助;也得到了许多研究生的支持,他们收集并整理了大量的资料。没有他们的帮助,本书很难在约定的时间内完成。在此,感谢他们在本书的编写过程中做出的巨大贡献。 编者 2020年6月

more >
扫描二维码
下载APP了解更多

同系列产品more >

并行程序设计

刘轶、杨海龙
定 价:69元

查看详情
Linux操作系统基础——面向人工智...

曹洁,张志锋,冯柳
定 价:59元

查看详情
人工智能应用的数学基础(微课版)

刘帅 付维娜 代建华
定 价:69元

查看详情
信息检索与搜索引擎(微课版)

闫琰、班晓娟、刘煜豪
定 价:49元

查看详情
算法设计与问题求解(第2版·微课版)...

邓泽林、李峰
定 价:59元

查看详情
图书分类全部图书
more >
  • 石川,男,1978年4月生于湖北洪湖。现就职于北京邮电大学计算机学院,教授、博导。长期专注于数据挖掘与机器学习研究,发表高水平论文50余篇。获北京市“师德先锋”称号和“青年英才”计划支持。  
more >
  • 目录

    第1章数据科学概论1

    1.1数据和大数据1

    1.1.1数据1

    1.1.2数据化进程3

    1.1.3大数据5

    1.2数据科学理论基础8

    1.2.1数据科学发展历程8

    1.2.2数据科学的概念9

    1.2.3数据科学的主要内容9

    1.3数据科学应用实践13

    1.3.1数据科学家13

    1.3.2数据科学工作流程14

    1.3.3数据科学实践案例15

    1.4小结19

    1.4.1本章总结19

    1.4.2扩展阅读材料20

    1.5习题20

    1.6参考资料21

    第2章数学基础23

    2.1线性代数23

    2.1.1向量23

    2.1.2矩阵24

    2.1.3矩阵导数29

    2.1.4实例: 利用SVD进行评分预测31

    2.2概率统计32

    2.2.1随机事件与概率33

    2.2.2条件概率与事件独立性342.2.3随机变量及其数字特征36

    2.2.4数理统计41

    2.2.5信息论42

    2.2.6实例: 利用朴素贝叶斯算法进行文本分类43

    2.3优化理论44

    2.3.1基本概念45

    2.3.2优化问题的一般形式48

    2.3.3优化方法54

    2.3.4实例: SVM分类器57

    2.4图论基础58

    2.4.1图的定义58

    2.4.2图的概念59

    2.4.3图的矩阵表示62

    2.4.4拉普拉斯矩阵与谱64

    2.4.5实例: 谱聚类算法65

    2.5小结67

    2.5.1本章总结67

    2.5.2扩展阅读材料68

    2.6习题68

    2.7参考资料69

    数据科学导论目录第3章Python语言初步70

    3.1Python语言概述7...

精彩书评more >

标题

评论

版权所有(C)2023 清华大学出版社有限公司 京ICP备10035462号 京公网安备11010802042911号

联系我们 | 网站地图 | 法律声明 | 友情链接 | 盗版举报 | 人才招聘