前 言
关于本书
本书将介绍数据可视化的内容及其重要性。随后,读者将学习如何计算平均值、中位数和方差以了解统计学方面的知识,并观察对应数值之间的差异。除此之外,读者还将学习关键的NumPy和Pandas技术,如索引、切片、迭代、过滤和分组机制。接下来,将介绍可视化的不同类型并对其进行比较。据此,读者将能够了解如何选取特定的可视化类型。其间,读者将探讨不同的图表,同时还包括自定义图表。
在了解了各种可视化库之后,读者将学习如何使用Matplotlib和Seaborn简化可视化的创建过程。除此之外,本书还将引入高级可视化技术,如地理图和交互式图表。读者将学习如何利用地理空间数据创建交互式可视化内容,并可集成至Web页面中。我们可通过任意数据集构建美观且具有洞察力的可视化内容。通过等值线图以及Bokeh,我们还将学习如何在地图上绘制地理空间数据,并通过添加微件和动画显示信息扩展图表。
最后,本书将对所学知识进行整合,读者将得到一个新的数据集,并以此创建一个具有洞察力的可视化图表。
本书目标
? 了解各种图表及其最佳用例。
? 与不同的绘图库协同工作并讨论其优缺点。
? 学习如何创建具有洞察力的可视化内容。
? 了解创建优良可视化图表的所需条件。
? 提升Python数据整理技能。
? 学习相关的业界标准工具。
? 了解数据格式和表达方式。
适合读者
本书是针对想步入数据科学领域的开发人员和相关人士而编写的,他们希望通过数据可视化进一步丰富其个人专业项目。在阅读本书之前,读者不需要具备数据分析和可视化方面的经验,但需要了解Python的基本知识以及高中水平的数学知识。尽管本书是一本入门级的数据可视化书籍,但具有一定经验的读者仍可从中受益,并可通过真实数据提升他们的Python技能。
本书以通俗易懂的语言讲述了数据可视化技术,并完美地平衡了理论与实践之间的内容。具体来说,每一章内容都是在前一章的基础上加以设计的。另外,本书还包含了多项操作,并在现实生活中的业务场景和高度相关的环境中实践、运用所学的技能。
软件和硬件需求
为了获得最佳体验,推荐使用以下硬件配置。
? 操作系统:Windows 7 SP1 32/64-bit,Windows 8.1 32/64-bit,Windows 10 32/64-bit,Ubuntu 14.04(及后续版本),macOS Sierra(及后续版本)。
? 处理器:双核或更高配置。
? 内存:4GB RAM。
? 存储:10GB可用空间。
除此之外,读者还需要安装下列软件。
? 浏览器:Google Chrome或Mozilla Firefox。
? Conda。
? JupyterLab和Jupyter Notebook。
? Sublime Text(最新版本)、Atom IDE(最新版本)或其他类似的文本编辑应用程序。
? Python 3。
? 安装以下Python库:NumPy、pandas、Matplotlib、seaborn、geoplotlib、Bokeh和squarify。
本书约定
本书通过不同的文本风格区分相应的信息类型。下面通过一些示例对此类风格以及具体含义的解释予以展示。
代码块如下所示。
# indexing the first value of the second row (1st row, 1st value)
first_val_first_row = dataset[0][0]
np.mean(first_val_first_row)
安装和配置过程
在阅读本书之前,需要安装Python 3.6、pip以及其他库,具体操作步骤如下。
安装Python
读者可访问https://realpython.com/installing-python/并遵循相关指令安装Python。
安装pip
(1)访问https://pip.pypa.io/en/stable/installing/并下载get-pip.py文件。
(2)使用下列命令进行安装:
python get-pip.py
考虑到计算机中Python之前的版本已经使用了Python命令,因而这里可能需要使用python3 get-pip.py命令。
安装库
使用pip命令安装库,如下所示。
python -m pip install --user numpy matplotlib jupyterlab pandas squarify bokeh geoplotlib seaborn
与JupyterLab和Jupyter Notebook协同工作
读者可能需要在JupyterLab中针对不同练习和操作展开工作。对此,可访问https://github.com/TrainingByPackt/Data-Visualization-with-Python下载相关内容。
读者可使用GitHub进行下载,或者单击右上角的Clone or download按钮,并以压缩文件方式进行下载。
当打开Jupyter Notebook时,需要通过终端遍历目录。对此,可输入下列命令:
cd Data-Visualization-with-Python/chapter01/
随后执行下列步骤:
(1)使用cd命令访问文件夹,如下所示。
cd Activity01
(2)调用jupyter-lab启用JupyterLab。类似地,对于Jupyter Notebook,可调用jupyter notebook命令。
导入Python库
本书中的练习和操作都需要使用各种库,其导入过程较为简单,具体各项操作步骤如下所示。
(1)当导入诸如NumPy和pandas时,可运行以下代码,这将把全部NumPy库导入当前文件中。
import numpy # import numpy
(2)可利用np而非numpy调用numpy中的方法,如下所示。
import numpy as np # import numpy and assign alias np
(3)导入部分内容。下列代码仅加载库中的mean方法。
from numpy import mean # only import the mean method of numpy
安装代码包
将类的代码包复制至C:/Code文件夹中。
附加资源
读者可访问https://github.com/TrainingByPackt/Data-Visualization-with-Python查看本书的代码包。
除此之外,读者还可访问https://github.com/PacktPublishing/查看其他代码包以及视频内容。
