Python大数据分析师的算法手册
详解NumPy、SciPy、Matplotlib、Pandas、StatsModels、Gensim等库的用法,剖析5个典型案例,帮助读者掌握大数据分析技术。

作者:邓立国 邓淇文

丛书名:大数据技术丛书

定价:109元

印次:1-1

ISBN:9787302708254

出版日期:2026.03.01

印刷日期:2026.03.12

图书责编:夏毓彦

图书分类:零售

电子书
在线购买
分享
内容简介
作者简介
前言序言
资源下载
查看详情 查看详情 查看详情

"《Python大数据分析师的算法手册》系统阐述大数据分析方法中的关键算法与实践,重点聚焦数据特征分析及第三方开源库的场景化应用。通过工具整合与实例讲解,为读者提供从理论到实践的完整学习路径。本书配套示例源码、PPT课件。 《Python大数据分析师的算法手册》共9章。第1章概述大数据分析;第2章讲解数据特征算法分析;第3~7章讲解主流开源的分析工具的用法,包括NumPy、SciPy、Matplotlib、Pandas、StatsModels、Gensim等;第8章讲解分类、聚类、回归、关联规则学习、推荐算法、时间序列分析、异常检测、自然语言处理、深度学习、图算法、优化算法、流数据处理等算法及其示例;第9章给出5个典型案例,包括文本分析与情感分析、金融大数据分析、社交网络分析、地理数据分析、城市交通数据分析。本书所有示例均在Anaconda3开发环境中调试通过,实验数据多源自GitHub公开资源,并附有完整源代码,便于读者复现与拓展。 《Python大数据分析师的算法手册》内容兼顾技术深度与实用性,适合大数据分析算法初学者、大数据分析人员、大数据研究人员阅读,也可以作为计算机科学与工程、大数据分析、人工智能、统计学和社会科学等专业的大学生或研究生的专业参考书。"

邓立国,东北大学计算机应用博士,广东工业大学教师。主要研究方向为人工智能、计算机与机器视觉、大数据处理、分布式计算等。以第一作者发表学术论文40余篇,主编科研著作9部,主持科研课题12项,多次获得省级科研优秀奖。

前 言 在这个比特与字节如暴雨般倾泻的数字时代,每一天,人类集体会产生2.5万亿字节的数据——在这个无形的数字宇宙中,蕴藏着改变商业形态、重塑科学发现、颠覆社会认知的巨大潜能。大数据分析算法,正是我们在这个混沌数字宇宙中寻找秩序的“罗塞塔石碑”,是将无序信息转化为深刻见解的炼金术。当我们谈论算法前瞻性时,实际上是在探讨人类如何为即将到来的数据洪流准备智慧之舟。 传统数据分析方法如同牛顿力学,在有限、结构化的数据世界中运行良好;而当今的挑战更接近量子领域——数据以超高速率(velocity)、超大规模(volume)和超复杂多样性(variety)涌现。这种“数据量子化”现象要求算法具备新的“不确定性处理能力”,能够在不完整、模糊甚至矛盾的数据流中发现隐藏模式。现代算法不再只是工具,它们正在进化为具有预测性和适应性的数字生命体,能够从历史数据的“记忆”中学习,在现实世界的“经验”中调整,在未来可能性的“想象”中预演。 算法进化的下一站将彻底模糊“分析”与“创造”的界限。我们正在见证分析算法从“解释已知”到“发现未知”的范式跃迁。强化学习系统通过与环境互动自主开发策略,生成对抗网络(GAN)创造从未存在却真实可信的数据实例,Transformer架构不仅理解语言更展现出知识合成的能力。这些突破暗示着一个新纪元:算法不再满足于做被动的数据分析者,而将成为主动的知识创造者。当分析算法开始提出人类未曾想过的问题时,我们是否准备好了接受这些来自硅基智能的“天问”? 任何技术的出现都伴随着伦理阴影。当算法能够预测犯罪倾向、评估健康风险、影响选举结果时,其决策过程的透明性与公平性...

目录
荐语
查看详情 查看详情
目    录

第1章  大数据分析概述 1

1.1  大数据分析背景 1

1.2  大数据分析的应用 2

1.3  大数据分析算法 3

1.4  大数据分析工具 5

1.5  本章小结 8

第2章  数据特征算法分析 9

2.1  数据分布性分析 9

2.1.1  数据分布特征集中趋势的测定 9

2.1.2  数据分布特征离散程度的测定 14

2.1.3  数据分布特征偏态与峰度的测定 17

2.2  数据相关性分析 19

2.2.1  数据相关关系 19

2.2.2  数据相关分析的主要内容 22

2.2.3  相关关系的测定 22

2.3  数据聚类分析 24

2.3.1  聚类分析定义 24

2.3.2  聚类类型 25

2.3.3  聚类应用 26

2.4  数据主成分分析 27

2.4.1  主成分分析的原理及模型 27

2.4.2  数据主成分分析的几何解释 29

2.4.3  数据主成分的导出 30

2.4.4  证明主成分的方差是依次递减的 31

2.4.5  数据主成分分析的计算 32

2.5  数据动态性分析 33

2.6  数据可视化 36

2.7  本章小结 38

第3章  大数据分析工具:NumPy 39

3.1  NumPy简介 39

3.2  NumPy环境安装配置 40

3.3  ndarray对象 41

3.4  数据类型 42

3.5  数组属性 45

3.6  数组创建例程 47

3.7  基本切片和高级索引 52

3.8  广播 55

3.9  数组与元素... 查看详情

"《Python大数据分析师的算法手册》重点介绍数据特征算法分析,以及第三方开源库NumPy、SciPy、Matplotlib、Pandas、StatsModels、Gensim等在大数据分析中的用法与示例。

剖析5个数据分析典型案例,包括文本分析与情感分析、金融大数据分析、社交网络分析、地理数据分析、城市交通数据分析,帮助读者掌握大数据分析技术及其应用场景。

配套示例源代码、PPT课件与读者微信技术交流群。"


查看详情