





作者:[美]霍尔顿·卡劳(Holden Karau) [加]米卡·金明斯(Mika Kimmins) 著 马宏华 译
定价:89元
印次:1-1
ISBN:9787302666295
出版日期:2024.08.01
印刷日期:2024.08.13
图书责编:贾小红
图书分类:零售
"《利用 Dask 扩展 Python 性能》详细阐述了与 Dask 扩展 Python 性能相关的基本知识,主要包括了解 Dask、Dask 基础操作、Dask 的工作原理、Dask DataFrame、Dask 的集合、高级任务调度、添加可变状态和 Dask Actor、评估 Dask 的 组件和库、迁移现有的分析工程、使用 GPU 和其他特殊资源的 Dask、使用 Dask 进行机器学习、生产化 Dask 等内容。此外,本书还提供了相应的示例、代码,以帮助读者进一步理解相关方案的实现过程。 本书适合作为高等院校计算机及相关专业的教材和教学参考书,也可作为相关开发人员的自学用书和 参考手册。"
"Holden Karau 是 Apache Spark 提交者,Apache 软件基金会成员,也是活跃的开源贡献者。作为一名软件工程师,她曾在 Apple、Google、IBM、Alpine、Databricks、Foursquare和 Amazon 从事各种分布式计算、搜索和分类问题的研究。她毕业于加拿大滑铁卢大学(University of Waterloo),获得过计算机科学数学学士学位。在软件之外,她还喜欢焊接、骑车和跳舞等。 Mika Kimmins 是一名数据工程师、分布式系统研究员和机器学习顾问。她曾是 Apple公司的 Siri 数据工程师,也曾是一名学术研究人员和非营利工程人员,她从事过自然语言处理(NLP)、语言建模、强化学习和机器学习管道等多种工作。她拥有哈佛大学工程科学硕士和 MBA 学位,以及加拿大多伦多大学(University of Toronto)计算机科学和数学学士学位。Mika 爱好花样滑冰、空中舞蹈和缝纫。 "
前 言 我们为熟悉Python和pandas的数据科学家和数据工程师编写了本书,因为他们都有处理比当前工具允许的更大规模的数据的需要。有些PySpark用户会发现本书中的部分资料与他们现有的PySpark知识重叠,但我们相信本书仍然会对他们有所帮助,这不仅仅是为了摆脱Java虚拟机(Java virtual machine,JVM)。 本书主要关注数据科学和相关任务,因为我们认为这是Dask最擅长的领域。如果你遇到Dask似乎不太适合解决的更一般性的问题,建议考虑使用Ray,这是一个用于扩展和分发Python和机器学习应用的框架。 关于责任的说明 俗话说,“权力越大,责任越大”。Dask和类似工具使你能够处理更多数据并构建更复杂的模型。重要的是不要仅仅为了数据好看而收集数据,而是要停下来问问自己,在模型中包含新字段是否可能会对现实世界产生一些意想不到的影响。例如,你在网络上随便搜索一下,就能看到很多用心良善的工程师和数据科学家无意中构建了具有毁灭性影响的模型或工具的故事,如增加了对少数族群的审计,或者不知不觉地在词嵌入(一种将词的含义表示为向量的方法)中产生了基于性别的歧视等。有关详细信息,你可以访问以下网址: https://oreil.ly/tqjth 因此,请在使用你新发现的能力时考虑到这种潜在的后果,因为没有人希望自己作为反面教材出现在教科书中。 本书中使用的约定 本书使用以下文本约定。 (1)有关代码块的设置如下: with performance_report(filename="computation_report.html"...
第1章 了解Dask 1
1.1 需要使用Dask的理由 1
1.2 Dask在生态系统中的定位 2
1.2.1 大数据 3
1.2.2 数据科学 3
1.2.3 并行分布式Python 4
1.3 Dask社区库 5
1.3.1 加速Python 5
1.3.2 SQL引擎 5
1.3.3 工作流程调度 6
1.4 Dask的局限性 7
1.5 小结 8
第2章 Dask基础操作 9
2.1 本地安装Dask 9
2.2 Hello World 10
2.2.1 Hello World任务 11
2.2.2 分布式集合 13
2.2.3 Dask DataFrame 15
2.3 小结 16
第3章 Dask的工作原理:基础知识 17
3.1 执行后端 17
3.1.1 本地后端 17
3.1.2 分布式后端(Dask客户端和调度程序) 18
3.2 Dask的诊断用户界面 20
3.3 序列化和Pickling 21
3.4 分区/分块集合 23
3.4.1 Dask数组 24
3.4.2 Dask bag 24
3.4.3 Dask DataFrame 25
3.4.4 打乱 25
3.4.5 加载期间分区 26
3.5 任务、图和惰性评估 26
3.5.1 惰性评估 26
3.5.2 任务依赖关系 27
3.5.3 可视化 27
3.5.4 中间任务结果 29
3.5.5 任务规模调整 29
3.5.6 当... 查看详情
个核心扩展到拥有数千台机器的数据中心。它具有低级任务 API 和更高级别的以数据为
中心的 API。低级任务 API 支持 Dask 与各种 Python 库的集成。拥有公共 API 使得工具
生态系统能够围绕 Dask 得以发展,以适应各种用例。"