





定价:79元
印次:1-1
ISBN:9787302677017
出版日期:2024.12.01
印刷日期:2024.12.06
图书责编:龙启铭
图书分类:教材
"大数据分析包括查询型分析、描述性分析、探索性分析、挖掘型分析等。本书介绍基于R语言的大数据分析解决方案。全书分3篇共18章。第1篇R语言,包括第1~10章,分别为R语言概览、表达式、字符串与正规表达式、函数、向量、矩阵、数据框、列表、面向对象程序设计、数据存储;第2篇可视化,包括第11、12章,分别为统计绘图、图形文法ggplot2;第3篇数据分析,包括第13~18章,分别为数据分析基础、查询型分析与数据表、描述性统计与探索性分析、挖掘型分析、离群点检测、文本挖掘。 本书力求通俗易懂、简单实用,示例丰富,可供大数据领域工程技术人员、计算机类专业高年级本科学生和硕士研究生使用。 "
董东,研究方向:大数据分析、 计算机教育等。已出版编著或译著12部,发表计算机教育论文10篇,应用研究论文55篇。为计算机类硕士研究生讲授软件体系结构、大数据分析等课程。河北省信息技术标准化技术委员会委员。
前言 大数据(big data)由极其宽泛的数据形成,体量大、流量大、多种多样、变化不定,需要可伸缩的体系结构以实现高效存储、操作和分析。简单来说,大数据就是体量超出了内存容量,甚至超出了本地磁盘容量的数据。 一个大数据分析项目由四个阶段组成: 数据收集(collection)、数据预处理(preparation)、数据分析(analysis)和行动(action)。数据收集是从数据源汇集数据的过程;数据预处理包括清洗、变换等;数据分析就是洞察数据,发现类别、规则、关联、相关、因果等知识;行动就是应用分析的结果为社会创造价值。 “分而治之”是解决复杂问题的基本策略。大数据分析是一个复杂问题。把大规模数据分解成N个小规模数据,得到N个分析结果,然后再把N个分析结果约简为一个综合的结果是大数据分析的一种范式。Hadoop生态系统实现了这种范式,提供了基于分布式文件系统的解决方案,并且算力能够无限线性叠加。但是,对于超出了内存限制但未超出磁盘容量限制的数据来说,需要更为廉价、方便、可移动的大数据分析解决方案。 同质并且成批收集的数据,称为“成块”(chunked)数据。大数据分析通常在一定的时间间隔(每年、每月、每天等)内按单独的数据文件从不同数据源收集数据,其累积的数据文件作为大数据分析的输入。 本书讨论面向成块数据的大数据分析解决方案,应用共享磁盘存储和虚拟内存技术解决数据“体量大”的问题,应用可扩展的R语言实现全生命周期的大数据分析。R是统计学专家和计算机科学与技术专家喜爱的计算机语言,也是一个开源免费的数据分析平台,其最大的优势在于可扩展性。几乎每天都有新的...
第1篇R语言
第1章R语言概览/31.1下载和安装R4
1.2安装和加载R程序包6
1.3R的基本使用7
1.4工作文件夹与工作空间10
1.5数据集12
第2章表达式/18
2.1字面量18
2.2运算符和表达式20
2.3日期时间23
第3章字符串与正规表达式/27
3.1字符串处理27
3.1.1字符个数27
3.1.2子串28
3.1.3拆分29
3.1.4连接30
3.1.5查找31
3.1.6替换31
3.1.7大小写转换32
3.1.8格式化32
3.2正规表达式33
第4章函数/37
4.1函数声明和调用37
4.2环境40
4.2.1环境的嵌套40
4.2.2访问环境42〖1〗R语言大数据分析目录〖3〗〖3〗4.2.3与函数相关的环境44
4.3控制结构46
第5章向量/51
5.1创建向量51
5.1.1枚举法51
5.1.2描述法52
5.1.3数列法53
5.1.4向量元素的命名54
5.1.5类型判断与类型转换54
5.2访问向量55
5.3算术运算57
5.4逻辑运算和关系运算60
5.5查询62
5.5.1条件查询62
5.5.2聚合查询63
5.6面向集合的查询66
5.7面向向量的程序设计67
5.8因子69
第6章矩阵/72
6.1创建矩阵72
6.2访问矩阵75
6.3矩阵运算77
第7章数据框/81
7.1创建数据框81
7.2访问数据框82
7.3tibble对象87
第8章列表/90
8.1创建列表90
8.2访问...