前 言
R语言由统计学家设计,专门用于统计计算。随着技术的进步,数据公司或研究机构
的数据收集工作变得越来越复杂,许多人已经采用R语言作为分析数据的首选语言。R语
言非常适合机器学习、数据可视化、数据分析及科学计算。R语言因其特定主题的软件包
及其通信基础设施的深入而非常适合业务。R语言包含主题广泛的软件包,如计量经济学、
金融学和时间序列;拥有一流的可视化、报告和交互性工具,这些工具在科学计算领域同
样重要。因此,R语言非常适合科学家、工程师和商业专业人士使用。
随着数据分析在帮助企业了解客户、提升运营效率等方面越来越重要,R语言也变得
越来越重要。
正如R语言分析师们在一篇文章中讲到,R语言是Microsoft数据科学家的首选工
具,他们将机器学习应用于Bing、Azure、Office及销售、营销和财务部门的数据。除
Google、Facebook和Microsoft等科技巨头外,R语言还广泛应用于包括美国银行、福特、
TechCrunch、Uber和Trulia在内的其他公司。
R语言不仅仅是工业工具,它在学术科学家和研究人员中也非常受欢迎。R语言在学术
界的受欢迎程度非常高,因为它创造了一个为行业提供支持的人才库。换句话说,如果最优
秀和最聪明的人在大学接受过R语言培训,那么这将增加R语言在工业中的重要性。离开学
术界进行商业活动的学者、博士和研究人员将吸引更多的人使用R语言进行数据科学研究。
笔者的使用体会
笔者以R语言为工具进行数据分析、统计建模、机器学习等数据科学的工作已经很多
年了,对R语言的原理、应用等各个方面有着比较全面的认识。R语言有着非常突出的优点。
第一,R语言是开源的,可以完成SAS所能完成的几乎所有的工作,SAS非常昂贵,
但是R语言完全免费。个人或者公司可以自由地安装、使用、更新、修改R语言程序,或
者转售R 语言程序,这是一个巨大的优势。
第二,R 语言是跨平台的,可以在Windows 、Mac OS 和Linux 上运行,可以从各种数
据源导入数据。
第三,R 语言有着非常强大的社区,其提供了非常丰富的数据科学、统计相关的资源
,
可以使得每一个R 语言用户受益。正是这些资源,可以让一个非常复杂的问题得到快速解决。
第四,R 语言提供了强大的数据可视化功能,可以生成高质量的图形,如条形图、直方图、
散点图、动态图形、数学符号,甚至是自己设计的全新图形,通常只需很少的代码。
第五,R 语言的文档资源相当丰富,并且质量非常高,这对于学习R 语言及在工作中
使用R 语言有着非常大的帮助。因为R 语言涉及很多领域的应用,从生物、金融到贝叶斯
统计、网络分析,可以沿着R 语言资源的脉络了解其他领域的知识。
第六,R 语言同样可以用来处理PB 级别的业务数据。使用R 语言处理大量数据时
,
系统可能会耗尽内存,但有几种商业版本的R 语言可以轻松处理大量业务数据,而不会有
任何麻烦。
使用R 语言存在一些挑战。R 语言的学习曲线比较陡峭,虽然R 语言的语法比较简单
,
入门比较快;R 语言的强大在于其丰富的资源,掌握这些资源并加以利用并不是一件容易
的事情;另外,解决数据分析、数据科学方面的问题,仅仅了解R 语言是远远不够的,统
计理论、机器学习方面的知识同样是解决问题的门槛;并且,更重要的是掌握数据科学、
数据分析问题的思维方式及流程,而这些也不是短时间内就能掌握的。
但是,只要坚持学习下来,就会发现,R 语言提供的大量地应用于数据科学、数据分
析方面的资源都能够为我们所用,而我们也能游刃有余地解决数据分析相关的问题。
本书的特色
■
本书不需要太多的预备知识,只需要很少的数学统计知识。
■
本书含有大量的图表,通过示例讲解数据分析,不拘泥于理论,能够帮助读者快速
掌握数据分析方法。
■
本书案例丰富,很好地平衡了理论与应用,有着非常高的理论与实用价值,是学习
R 语言与数据分析不可多得的书籍。
■
本书将重点放在如何用实现数据分析方法及数据分析方法的应用方面,这也是本书
与许多其他同类图书的不同之处。
本书的主要内容
读 者 对 象
■
数据分析的从业人员
;
■
统计、数学、经济学、计算机、财经等学科的本科生、研究生
;
■
互联网从业人员,如产品经理
;
■
R 语言、数据分析新手
;
■
有一定R 语言经验的人
;
■
转行进入数据分析行业的人
;