





定价:49元
印次:1-1
ISBN:9787302680161
出版日期:2025.01.01
印刷日期:2025.01.13
图书责编:闫红梅
图书分类:教材
"本书对数据科学与工程中的算法基础进行了全面的论述,把读者引入数据科学的大门,为进一步学习和掌握大数据分析算法提供有力的支撑。本书介绍的数据科学与工程中的算法基础包括特征工程、数据表征、数据抽样、随机优化算法和关联性分析等,侧重内容的科学性、实用性和前沿性。本书结构上注重理论与实践并重,各章通过案例引出问题,并深入介绍回答类似问题需要的知识,最后通过实际案例串联本章知识点,可以使读者感受到算法的价值及其在解决实际问题中的实用性。 本书可以作为高等学校大数据、计算机等相关专业的教学用书,对科研机构的研究人员、工程技术人员也有一定的参考价值。 "
徐明华,博士,教授,常州大学计算机与人工智能学院 阿里云大数据学院 软件学院院长,计算数学专业,研究方向为最优化理论和应用、数值代数和数据建模与分析,长期从事数据处理、建模和数值计算的教学与科研工作,发表科研论文 40 余篇,其中 SCI 论文近 20篇,主编教材 3 部。主持江苏省教改项目 2 项,发表教学研究论文 9 篇,核心期刊 5 篇。主编江苏省重点教材 1 部,参编教材 2 部,获江苏省教学成果奖二等奖 1项,校教学成果特等奖 2 项。先后获常州市师德模范、“校最受学生欢迎教师”、常州市高等院校优秀班主任等教学奖或荣誉称号 10 多项。主要参与国家自然科学基金项目 4 项、博士点基金项目 1 项、主持横向项目 5 项。
前言 信息技术的飞速发展使数据的产生、存储和处理能力达到了前所未有的高度。数据的丰富性和复杂性带来了巨大的挑战,同时也蕴藏着巨大的机遇。如何挖掘不同类型数据中蕴藏的丰富信息,已经成为大数据时代面临的重要问题之一。数据科学与工程,作为一门新兴的交叉学科,正是为了应对这一挑战而诞生的。数据科学与工程以数据为研究对象,通过综合运用数学、统计学、计算机技术等方法对数据进行处理和分析,以实现数据的价值。数据科学与工程的核心是算法,它们是处理数据、提取信息、发现模式和预测未来的强大引擎。 本书旨在培养新工科背景下具备数据科学思维,掌握数据科学与工程算法的大数据专业人才。本书系统地介绍了特征工程、多类型数据表征、数据抽样、图计算、随机优化算法、相似性度量、关联性分析等相关知识与方法,涵盖数据表征、数据计算和数据挖掘等多方面的内容。本书从数据科学与工程的基本概念和流程出发,逐步引领读者进入数据科学的核心领域,全面理解和掌握数据科学的精髓,为进一步深入学习机器学习算法打下扎实的基础。 全书共8章,内容包括绪论、特征工程、多类型数据表征、数据抽样、图计算、随机优化算法、相似性度量、关联性分析,不仅覆盖了传统数据科学领域的重要算法,还涉及最新的研究进展,如图计算、因果分析、多模态数据融合等前沿技术,使得本书既具有广度又具有深度。同时,本书内容结构遵循学习规律: 首先通过“问题导入”,建立现实问题与数据科学与工程相关技术的关系,明确学习目标,激发学生学习数据科学与工程相关技术的兴趣; 然后,构建相关的知识体系,介绍算法及其演化,提高学生描述问题的表达能力、解决问题的算法思维能...
目录
第1章绪论
1.1概况
1.2数据分析
1.2.1流程
1.2.2算法分类
1.2.3基本原则
1.3算法基础
1.4本章小结
习题
第2章特征工程
2.1问题导入
2.2特征提取
2.3特征探索性分析
2.3.1单变量分析
2.3.2多变量分析
2.4特征预处理
2.4.1缺失值处理
2.4.2异常值处理
2.4.3特征变换
2.5特征选择
2.5.1过滤法
2.5.2封装法
2.5.3嵌入法
2.6案例: 工业设备信号特征工程
2.7本章小结
习题
第3章多类型数据表征
3.1问题导入
3.2时序数据表征
3.2.1频域特征
3.2.2时频域特征
3.3文本数据表征
3.3.1词袋模型
3.3.2TFIDF特征
3.3.3词向量嵌入
3.4图像数据表征
3.4.1图像处理基础
3.4.2SIFT
3.4.3HOG
3.4.4深度特征表示
3.4.5多模态特征融合
3.5案例: 农作物病虫害图像表征
3.6本章小结
习题
第4章数据抽样
4.1问题导入
4.2概率抽样
4.3非均衡抽样
4.3.1样本分布不均衡问题
4.3.2过采样
4.3.3欠采样
4.4数据流抽样
4.4.1数据流抽样问题
4.4.2蓄水池抽样
4.5蒙特卡洛抽样
...