





作者:(德)弗拉基米尔·什克曼,(德)大卫·穆勒 著 李泽宇 译
定价:69元
印次:1-2
ISBN:9787302633167
出版日期:2023.09.01
印刷日期:2024.08.07
图书责编:苏东方
图书分类:零售
本书分为10章,其中第1~9章探讨了排序、推荐系统、聚类、线性回归等内容,每章都以一个具体的实际问题开始,其主要目的是激发对某一特定大数据分析技术的研究。接下来探讨其背后的数学原理——包括重要的定义、辅助陈述和得出的结论。案例研究有助于将所学知识应用于跨学科的环境中,包括对逐步任务的描述和有用的提示。每章之后都配有习题,作为自学中不可缺少的一部分,有助于提高对基础理论的理解。第10章提供了前9章的习题答案,以及Python代码中的算法描述作为补充材料。本书适合作为大数据分析、应用数学及相关专业的研究生和高年级本科生。
朱文强,江西财经大学软件与互联网工程学院教师,长期主讲“Python编程”“Android应用开发”“软件项目实践”等课程,具有丰富的实践教学经验。
前 言 本书主题 大数据分析(big data analytics)是一个相对现代的数据科学领域,这一领域专注探索如何分解和分析可用的数据集,以便更加系统地收集信息和结论。大数据分析的特点是待处理的数据量太大、太复杂、变化太快、收集成本太高、数据间的关联太弱,因此无法通过传统的人工处理方法进行评估。这也就是我们常说的大数据5V(Five Vs)的概念: * 数据量(Volume)是指公司、研究机构和家庭产生和存储的大量数据; * 多样性(Variety)反映了数据类型和数据源的多样性,包括消费者档案、社会联系、文本、图像、视频、语音等; * 速度(Velocity)意味着数据以很高的速度不断生成、分析和再处理,以支持底层决策; * 有效性(Validity)是数据质量的保证,或者说代表了数据的真实性和可信度,大数据中的数据元素往往遇到测量不准确等情况; * 价值(Value)来自成本效益分析,它表示了系统地收集和使用业务活动中的数据为公司产生的积极影响。 总体来说,大数据现在的5V挑战是提出足够的概念和算法,旨在有效地捕获、存储、处理或利用数据。 本书宗旨 本书介绍了大数据分析中使用的基本数学模型,并对相关实际问题进行了应用参考。本书使用了必要的数学工具,并将它们应用于当前的数据分析问题,进一步跨学科应用于生物学、语言学、社会学、电气工程、计算机科学和人工智能等领域,本书给出的例子包括DNA测序、主题提取、社区检测、压缩感知、垃圾邮件过滤和国际象棋引擎等。对于模型,我们使用了大量的数学知识和方法------从基本的数值线性代数、统计学和优化到更专业的...
目 录
第1章 排序 1
1.1 研究动因:谷歌问题 1
1.2 研究结果 4
1.2.1 Perron-Frobenius定理 4
1.2.2 PageRank 8
1.3 案例研究:品牌忠诚度 14
1.4 练习 17
第2章 在线学习 19
2.1 研究动因:投资组合选择 19
2.2 研究结果 22
2.2.1 在线镜像下降 22
2.2.2 熵设定 29
2.3 案例分析:专家建议 33
2.4 练习 34
第3章 推荐系统 37
3.1 研究动因:Netflix大赛 37
3.2 研究结果 38
3.2.1 基于近邻的方法 38
3.2.2 基于模型的方法 41
3.3 案例分析:潜在语义分析 52
3.4 练习 54
第4章 分类 56
4.1 研究动因:信用调查 56
4.2 研究结果 57
4.2.1 Fisher判别规则 57
4.2.2 支持向量机 64
4.3 案例分析:质量控制 72
4.4 练习 74
第5章 聚类 77
5.1 研究动因:DNA测序 77
5.2 研究结果 79
5.2.1 k-均值算法 79
5.2.2 谱聚类 82
5.3 案例分析:主题抽取 88
5.4 练习 91
第6章 线性回归 93
6.1 研究动因:计量经济学分析 93
6.2 研究结果 95
6.2.1 最小二乘法 95
6.... 查看详情