前言
前言
大数据时代下,以信息技术为支撑的数据分析与研究方法正深刻地改变着传统科学探索的工作方式,成为人类科技发展与知识获取的一种新兴模式。为了使堆积如山的数据能更好地被人们利用,需要对数据进行有意义的处理。大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。因此,寻求有效的数据处理技术和方法已经成为现实的迫切需求。
本书的写作目的是使读者了解数据分析的基础理论,掌握运用Python进行科学计算、数据处理、分析和可视化的方法,具备处理和解决大量数据问题的能力。全书共分为9章,如表01所示。
表01全书知识体系
知 识 体 系章节
基础知识
第1章 数据分析简介
第2章 数据分析的方法
第3章 NumPy和pandas基础
数据分析技术
第4章 数据获取与导入
第5章 数据预处理
第6章 数据探索
第7章 数据挖掘概述
数据可视化
第8章 基本统计图形
第9章 文本、网络和地理空间可视化
1. 基础知识
第1章数据分析简介,介绍数据、数据分析等基本概念以及数据分析的作用、步骤和常用工具等;第2章介绍数据分析方法;第3章是Python中常用的NumPy和pandas数据分析包。
2. 数据分析技术
第4~7章以Python为基础介绍数据的主要分析技术。第4章主要介绍数据获取、网络爬虫以及不同种类文件的导入、导出方式;第5章介绍数据预处理的主要步骤和相关方法,包括数据清洗、数据集成、数据规约和数据变换等;第6章阐述数据探索的主要方法,包括基本描述性统计、分组与聚合分析、参数估计、假设检验和相关性分析等;第7章介绍数据挖掘的概念、问题与任务,以及从基础知识、代表性算法、评估分析等方面,重点介绍了数据挖掘常用的分析方法,包括分类分析、关联分析和聚类分析。
3. 数据可视化
第8章介绍了基于Python的三种常用绘图包,分别是Matplotlib、pandas和Seaborn,可绘制的图形类型包括线图、直方图、条形图、龙卷风图、饼图、散点图、气泡图、箱线图、雷达图和数据分布图等。第9章概要介绍了网络图、文本数据、地理数据等非数值型数据的可视化方法。
书中每章的最后都给出了配套的习题,便于教师教学和测试,学生巩固知识点并启发全面思考。
与现有以介绍Python编程语法、数据挖掘与机器学习理论的书籍不同,本书是数据分析类课程的入门教材,系统整理了数据分析的知识体系,以分析流程为主线阐述了数据分析的主要方法和基于Python的技术应用。从第2章开始,在阐述基础知识的同时设计了大量例题,按照“分析需求→Python代码展示→例题解析→运行结果”的思路对知识点进行剖析。设计的例题有助于教师授课和学生自学理解。采用较受欢迎的编程语言Python作为分析工具,代码简洁、易读性好,且易上手。全书提供习题、答案及源码。建议至少进行32学时的授课和学习。
本书可作为普通高等院校数据分析处理相关课程的学生的教材使用,也可供刚刚步入数据分析领域的从业人员参考。
本书由潘晓、吴雷、王书海编著,第1~3章、第7~9章由潘晓编写,第4~6由吴雷编写,全书由潘晓负责统稿定稿。本书在撰写过程中参考了如维基百科、知乎、CSDN等互联网上优秀的资料。此外,特别感谢实验室的博士生和硕士生们进行的资料收集与整理,其中包括董慧、姜梦、鹿东娜和杜一凡,感谢石家庄铁道大学信息管理与信息系统专业的2018级和2019级学生作为第一批读者完成的勘误工作。感谢河北省自然科学基金项目(F2021210005)、河北省重点研发项目(21340301D)、河北省省级科技计划资助项目(21550803D)、河北省教育厅青年拔尖项目(BJ2021085)项目的支持。
感谢清华大学出版社在全书的校对和编辑出版过程中付出的巨大努力。由于作者水平有限,书中如有疏漏之处敬请读者提出宝贵意见。
潘晓2022年12月