





定价:59元
印次:2-3
ISBN:9787302610229
出版日期:2022.07.01
印刷日期:2024.02.01
图书责编:贾小红
图书分类:教材
本书通过Titanic 数据分析案例,深入浅出地介绍了R 语言在大数据分析应用中的相关知识,包括: 数据准备、数据清洗、数据探索、数据变换、特征工程、数据建模、模型评估、模型部署等。全书共13 章,第1~3 章介绍R 语言的开发环境和基本语法;第4~8 章按数据分析生命周期讨论R语言的实现; 第9 章高级编程相对独立,主要解决复杂问题可能用到的程序结构;第10、11 章与机器学习有关,内容 偏难,但通过Rattle 包回避了算法底层技术的难点;第12、13 章通过两个实际项目,让读者体验数据处 理的全过程以及业务对分析的重要性。本书力求以简洁、精练、理论与实践相结合的方式,让读者快速掌 握R 语言。 本书既可作为数据分析相关课程的教材,也可作为数据分析爱好者的参考资料。
刘鹏,清华大学博士毕业,现任南京云创大数据科技股份有限公司总经理,兼任中国大数据应用联盟人工智能专家委员会主任、中国信息协会教育分会人工智能专家委员会主任、教育部全国普通高校毕业生就业创业指导委员会委员、第45届世界技能大赛中国区云计算选拔赛裁判长/专家指导组组长、2019年全国大学生数据建模比赛命题人、工信部云计算研究中心专家。程显毅,工学博士,南通大学教授。硅湖职业技术学院特聘教授。江苏省人工智能学会监事会监事,江苏省微电脑学会人工智能专委会副主任委员。长期从事人工智能、自然语言理解领域的教学研究工作。主持国家自然科学基金项目2项。发表论文100多篇、出版教材6部、专著5部。
再 版 前 言 由于大数据、物联网、云计算推动了人工智能技术的落地实施,机器学习逐渐显现其重要性,成为人工智能的核心技术。 从理论的角度,大部分人都清楚的知道,研究机器学习不会遇到要学习底层理论的情况,通常只是应用程序接口(Application Programming Interface,API)的调用。所以基本上绝大多数研究者都把注意精力集中到数据处理上;由此可见,数据处理非常重要。数据处理得好,数据特征质量就会比较高,机器学习也就相对比较容易。 从模型评估角度,需要将预测的结果和真实的结果比较,但模型的输出是类别还是类别的概率,需要处理,才能使用评价函数。所以说,还是要将重点放在数据处理上,如何将概率转换为类别?如何计算auC.roc 之类的?其实本质上都是一样的:把数据处理成特征明显的、格式符合这些函数(不管是模型函数还是评估函数)的,就会出现没有问题的结果。所以,对于大多数程序员来说,机器学习到最后还是数据处理(也就是数据转换之类的任务)。 从模型训练角度,模型调参是靠经验的,刚开始可能是手动调整,那么能不能自己写一个交叉验证?写个网格搜索(用for 循环就可以实现)?把每一次调用的参数、结果都保存起来?这些问题不都是数据处理吗?是更改了底层机器学习的原理了吗?并没有!虽然不更改底层的模型代码,但是会数据处理;这样就可以玩机器学习,并初步接触到人工智能了。所以还是要数据处理,由此再次可见数据处理非常重要! 从商业角度,还是要回答一个不能回避的问题,数据处理引擎用R 语言还是用Python?R 语言在国外用得很火,但是国外会R 语言的有几个不会Python?在...
及1 嫗 偖胎
1.1 R 囂冱古峰 ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, 1
1.1.1 R 囂冱・彜 ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, 1
1.1.2 R 囂冱麼勣單米 ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, 2
1.1.3 僥R 囂冱議尖喇 ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, 3
1.2 仟返貧揃 ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, 4
1.3 R 囂冱蝕窟桟廠何俸 ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, 5
1.3.1 芦廾R ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, 5
1.3.2 芦廾RStudio ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, 6
1.4 資函逸廁 ,,,,,,,,,,,,,,,,,,... 查看详情
分为绪论(第1 章)、基础篇、应用篇和进阶篇。基础篇(第2~10 章)
学习如何用R 语言完成数据处理,包括数据准备、数据探索、数据变换、
数据可视化和数据建模等;应用篇(第11、12 章)学习如何用R 语言完成
实际的数据分析报告撰写,包括背景与目标、指标设计、描述性分析、模
型分析和结论与建议;进阶篇(第13、14 章)学习如何使用R 语言提高大
数据处理性能,包括RHadoop、SparkR。
本书特点如下。(1)知识学习的重点是模型的运用,而不是模型的原理。 (2)注重数据变成价值。(3)关注大数据分析。 (4)向读者提供了书中所用的配套代码、数据及PPT,读者可通过上机实验, 快速掌握书中所介绍的R 语言的使用方法。 第2 版对第1 版的内容和结构都做了较大的调整。
(1)去掉了数据分析师素养等宏观内容,而更加注重实操和解决实际问题。
(2)全书的实验数据以Titanic 项目为切入点,贯穿数据处理的全过程。从实际项目出发讲解相关知识点,因此增强了业务场景的体验。
(3)去掉了大数据处理的章节,因为大数据处理的方法、思维和小数据没有本质区别,只是平台不同。
(4)增加了字符串处理、特征工程、数据建模、模型评估方面的内容。
(5)增加了大量的学习资料:PPT、习题、代码、数据集、扩展阅读、微课视频等。
(6)增加了近几年R 语言的**成果:pacman、caret、tidyverse、mlr 等。
查看详情