首页 > 图书中心 >图书详情
数据科学导论
作者:黄晓林、刘斌、刘钦、陈颖、葛云
丛书名:面向新工科的电工电子信息基础课程系列教材
定价:45元
印次:1-5
ISBN:9787302561699
出版日期:2020.10.01
印刷日期:2025.01.09
本书通过完整、规范的数据科学项目的流程来组织全书体系结构,涵盖数据科学项目的全过程,包括问题提出与目标制定、凝练前提假设和设计数据方案、探索性数据分析、建模与分析、性能评价、结果诠释与展示。佐以丰富的案例分析和模拟项目训练,启发学生主动思考,培养学生在实践中树立严谨的科学思维方式及数据科学流程。 本书除了可作为本科生数据科学基础课、理工通识课教材外,还面向所有对数据科学有浓厚兴趣的人群,以及各行各业中有大体量数据分析需求的人群。
more >前言 伴随当前传感、网络与通信、存储技术的大力发展,社会生活中的方方面面每天都产生、积累着大量数据,对这些数据的有效处理与及时应用的需求带来了对传统数据分析领域的新挑战。针对上述挑战,近年来以互联网为代表的工业界引领了数据科学的热潮。然而,随着数据科学在业界的流行,一些由于基本概念不清晰或应用不规范而带来的结论误导(如有偏样本搜集、p值欺骗等)问题也开始日益凸显,进而引起了学术界的关注。 数据科学是应用“科学”的方法、流程、算法和系统,从多种形式的结构化或非结构化数据中提取知识和洞见的交叉学科。其内容跨越数学、计算机、信息学、系统科学等多领域,难以分门别类进行介绍。而已有的一些相关书籍,多偏重工具的应用和技巧,对数据科学中的“科学”元素甚少涉及。本书立足于“科学”性,从学术的严谨性出发,着重确立数据科学中的各种基本概念与原理,建立数据科学完整的规范化流程。 具体而言,本书将遵照严谨的科学探索流程,按“确定问题—制定目标—搜集数据—探索性数据分析—建立模型—性能评价—结果展示”的规范化步骤,依次介绍各环节的关键概念、原理和准则,并佐以丰富的案例分析,启发学生主动思考,在实践中培养学生严谨的科学思维方式及规范的数据科学流程,对于指导可靠的数据分析具有重要意义。 本书是对数据科学的导论性介绍,力求简洁、易懂,包含了丰富的案例。本书可作为高等院校相关专业的基础课或通识课教材,也适合作为对数据科学感兴趣的大专院校学生或社会读者的自学书籍。 本书的代码全部使用Python语言在Jupyter Notebook环境中编写,书中第4章将对Python和Jupyter Notebook做相应介绍,熟悉该内容的读者可以跳过该章。 2018年,作者团队在南京大学电子科学与工程学院面向三年级本科生新开设了“数据科学导论”课程,教学内容和教案的编写借鉴了大量的国内外优秀教材以及国际知名高校的网络公开课。2019年年底,本课程的慕课版“探索数据的奥秘”在中国大学MOOC网正式上线。在线下和线上课程的开设过程中,同学们都给予了积极热情的反馈。基于他们的反馈意见,作者团队对教学内容及其组织形式、分析案例等进行了多次调整与完善,最终形成了本书。在此,也向所有参加过线下与线上课程学习的同学们表示感谢。 在本书编写团队中,黄晓林任主编,负责整体内容的规划、组织与全书行文,刘斌任副主编并编写第3、7章部分内容,刘钦编写第4章部分内容,陈颖编写第6章中决策树相关部分,葛云编写第1章中部分应用案例。研究生张羽祺、王珵、余强、奚菁对本书部分图表的绘制提供了帮助,在此向他们表示感谢。 感谢南京大学电子科学与工程学院徐骏教授、施毅教授、王自强副教授,南京大学教务处施佳欢老师、宋晓青老师等,本书从最初新建课程到现在教材定稿,每一步的进展都离不开他们的大力支持。感谢马小飞博士提供业界动态,感谢南京邮电大学地理与生物信息学院王俊教授和南京师范大学教育科学学院王蔚教授为本书提出的宝贵意见。感谢清华大学出版社文怡编辑等同志,是他们的辛勤工作保障了本书的顺利出版。 本书配套有微课视频(请观看中国大学MOOC网“探索数据的奥秘”课程视频),书中所有源代码、课件均随书提供下载(扫描二维码),可供读者自学或作为教学等非商业目的使用。 由于作者水平有限,书中难免有不当之处,欢迎读者批评指正。 作者 2020年8月 大纲+课件+源代码
more >