图书推荐

《漫画算法与数据结构(大规模数据集)》的重点并不是介绍通用的数据结构与算法分析。在大数据和人工智能的时代背景下,传统的经典算法往往性能不佳,甚至可能不起作用。本书以分布式数据集、流式数据结构与算法设计为主线,对流式数据采集、数据库中的数据结构设计、外部存储器算法进行介绍。目前,实际生产中已经形成了流式数据采集、存储、分析和计算的产品且成果显著。针对流式数据的采集和存储的产品主要有 Apache Kafka、Apache Pulsar 和 Pravega。流式数据的计算与分析主要经历了两代产品,第一代为 Apache Storm、Spark Streaming,目前流行的是第二代产品 Apache Flink。此外,还出现了 MPP(Shared Nothing 架构)的分布式并行架构数据库集群,主要有 Greenplum、HAWQ、HashData 等分布式数据库系统。通过在 MPP 架构基础上对流式数据的存储和计算支持,单节点每秒可处理多达 100 亿行数据,支持大规模数据实时写入且保证秒级实时性,主要的产品有Apache Doris、StarRocks 和 MatrixDB。这些优秀的产品无不把流式数据的数据结构和算法体现得淋漓尽致。本书针对流式数据场景,对常见的大规模数据集算法和数据结构进行了梳理和讲解。这些流式数据产品的出现有效解决了海量流式数据的采集、存储和极速全场景分析计算等问题。本书可作为从事算法设计与分析、大数据平台分析、模式识别与人工智能和数据库等领域研究工作的工程师、计算机科学家的参考书。