大话数据科学——大数据与机器学习实战(基于R语言)
多图多思想,缜密学习思维导图,全套学习课件,全彩印刷、卓越体验。学习数据科学,看陈文贤老师的就对了。

作者:陈文贤

定价:128元

印次:1-1

ISBN:9787302551300

出版日期:2020.07.01

印刷日期:2020.05.29

图书责编:栾大成

图书分类:零售

电子书
在线购买
分享
内容简介
作者简介
前言序言
资源下载
查看详情 查看详情 查看详情

本书以独特的方式讲解数据科学,不仅让读者可以轻松学习数据科学理论,又可以动手(手算和机算)进行数据科学实战。本书特色:全彩印刷,图形、表格、思维导图丰富;避免深奥的数学证明,采用简单的数学说明;用各种学习图将本书内容贯穿起来;实战计算,包含小型数据的演算和大型数据的实战程序。 本书共13章,内容涵盖丰富的数据科学模型,包含关联分析、聚类分析、贝叶斯分类、近邻法、决策树、降维分析、回归模型等算法。利用小数据例题介绍计算步骤,同时用R语言验证计算结果。另外,也有大数据的案例数据,例如:推荐系统、支持向量机、集成学习等。另外,本书只有大数据的案例数据用R语言计算。 本书适合各个专业领域(包含金融、电商、保险、互联网等行业)想掌握数据科学的读者,也可以作为高校、社会培训机构教材。由于内容比较多,教师可自行选择教学内容。

陈文贤,美国加州大学伯克利分校工业工程博士,历任:台大信息管理系教授兼系主任、美国雪城Syracuse大学客座教授、澳大利亚悉尼科技大学UTS客座教授、台北德明财经科技大学信息管理系特聘教授。

前 言 秋水时至,百川灌河;泾流之大,两涘渚崖之间不辩牛马。 于是焉河伯欣然自喜,以天下之美为尽在己。 顺流而东行,至于北海,东面而视,不见水端。 —《庄子·秋水篇》 互联网的时机到了,数据汇入数据库,流量之大,不能辨别分类聚类。 于是数据科学家沾沾自喜,以为大数据的美丽结果,我说了算。 数据流量顺势加大,汇流成海量,看数据沧海,不见因果关系。 —《大数据篇》 本书期望以深入浅出接地气的方式介绍数据科学,即帮助读者轻松学习数据科学理论,又有利于读者动手(手算和电算)完成数据科学实战。因此本书特色是: 1 一图抵千言 本书继承清华大学出版社出版的《大话统计学》一书学习地图的精神,内容尽量用图形、表格、思维导图说明。学习地图是让你知道你的位置,并且告诉你如何去目的地。 2 避免深奥的数学证明,采用简单的数学说明 奥卡姆剃刀原理(Occam’s Razor)认为,最好的科学理论是能解释所有事实的最简单的理论(The best scientific theory is the simplest one that explains all the facts)。数据科学机器学习秉承简约法则:切勿浪费较多东西,去做“用较少的东西,同样可以做好的事情”,避免“过拟合”的精神。学会本书数据科学基本观念,可以进一步理解机器学习的理论证明和复杂模型,例如深度学习。 3 章节连贯,一气呵成 本书说明了数据科学模型输入数据的类型和限制,算法的分类异同和因果关系,输出结果的评价和优劣。数据科学要考虑:问题种类,...

目录
荐语
查看详情 查看详情
第一篇 基础篇

 第1章 大数据概述 3

1.1 大数据与相关学科的定义 4

1.1.1 大数据的定义 4

1.1.2 数据挖掘 6

1.1.3 数据挖掘标准过程 7

1.1.4 机器学习 9

1.1.5 知识管理 12

1.1.6 数据科学 14

1.1.7 商业智能 15

1.1.8 人工智能 17

1.1.9 统计学与大数据比较 19

1.1.10 数据名词的定义 21

1.2 系统与模型概念 22

1.2.1 系统定义与成分 22

1.2.2 输入,处理,输出与黑箱 23

1.2.3 环境 24

1.2.4 反馈 25

1.2.5 效率与效果 25

1.2.6 模型与建模 26

1.2.7 模型的假定与参数 27

1.2.8 敏感,稳健或鲁棒 28

1.2.9 模型的过拟合 28 

1.3 大数据分析模型的分类 30 

1.3.1 后设模型 30 

1.3.2 关系与因果 31 

1.3.3 基于因果关系的统计学分类 32 

1.3.4 基于因果关系的大数据分类 32 

1.3.5 基于数据类型的分类 34 

1.3.6 基于测量的分类 35 

1.3.7 数据科学模型的其他分类 36 

1.4 大数据的江湖传奇 36 

1.5 R语言“词云图”代码 40 

1.6 本章思维导图 42 

第2 章 大数据与R 语言  43 

2.1 大数据进位 44 

2.... 查看详情

数据科学作为一门新兴的学科,正在高速发展并落地应用。当前的各行各业都充满了数据,这些数据的类型多种多样,不仅包括传统的结构化数据,也包括网页、文本、图像、视频、语音等非结构化数据。

数据科学涵盖的体系甚广,对某一领域进行数据科学研究,首先要研究该领域(比如生物信息学、天体信息学、数字地球等)的特性,然后通过包括统计学、机器学习、数据挖掘、数据库等技术从中分析出需要的结果。这些学科都是数据科学的重要组成部分,只有把它们有机地整合在一起,才能形成整个数据科学的全貌。

陈文贤老师作为数据科学的早期探索者,积累了大量科研经验,更为难得的是,陈老师擅用与科班教材截然不同的方式把包罗万象的数据科学细节逐步分解,娓娓道来,再用多年积累的实际案例把理论串联起来,从中再佐以大家耳熟能详的案例(如武侠场景、生活场景),把艰深晦涩、逻辑复杂的问题剖析地如水银泻地般流畅。

由于数据科学的特性,我们在策划阶段便确认彩色印刷,以便可以更精准地讲解和分析各种图表和代码。另外,陈老师针对全书脉络,每章都提供了学习地图,确保读者学习过程中不会迷失。


查看详情