图书前言

前    言

关于本书

本书将介绍数据可视化的内容及其重要性。随后,读者将学习如何计算平均值、中位数和方差以了解统计学方面的知识,并观察对应数值之间的差异。除此之外,读者还将学习关键的NumPy和Pandas技术,如索引、切片、迭代、过滤和分组机制。接下来,将介绍可视化的不同类型并对其进行比较。据此,读者将能够了解如何选取特定的可视化类型。其间,读者将探讨不同的图表,同时还包括自定义图表。

在了解了各种可视化库之后,读者将学习如何使用Matplotlib和Seaborn简化可视化的创建过程。除此之外,本书还将引入高级可视化技术,如地理图和交互式图表。读者将学习如何利用地理空间数据创建交互式可视化内容,并可集成至Web页面中。我们可通过任意数据集构建美观且具有洞察力的可视化内容。通过等值线图以及Bokeh,我们还将学习如何在地图上绘制地理空间数据,并通过添加微件和动画显示信息扩展图表。

最后,本书将对所学知识进行整合,读者将得到一个新的数据集,并以此创建一个具有洞察力的可视化图表。

本书目标

? 了解各种图表及其最佳用例。

? 与不同的绘图库协同工作并讨论其优缺点。

? 学习如何创建具有洞察力的可视化内容。

? 了解创建优良可视化图表的所需条件。

? 提升Python数据整理技能。

? 学习相关的业界标准工具。

? 了解数据格式和表达方式。

 

适合读者

本书是针对想步入数据科学领域的开发人员和相关人士而编写的,他们希望通过数据可视化进一步丰富其个人专业项目。在阅读本书之前,读者不需要具备数据分析和可视化方面的经验,但需要了解Python的基本知识以及高中水平的数学知识。尽管本书是一本入门级的数据可视化书籍,但具有一定经验的读者仍可从中受益,并可通过真实数据提升他们的Python技能。

本书以通俗易懂的语言讲述了数据可视化技术,并完美地平衡了理论与实践之间的内容。具体来说,每一章内容都是在前一章的基础上加以设计的。另外,本书还包含了多项操作,并在现实生活中的业务场景和高度相关的环境中实践、运用所学的技能。

软件和硬件需求

为了获得最佳体验,推荐使用以下硬件配置。

? 操作系统:Windows 7 SP1 32/64-bit,Windows 8.1 32/64-bit,Windows 10 32/64-bit,Ubuntu 14.04(及后续版本),macOS Sierra(及后续版本)。

? 处理器:双核或更高配置。

? 内存:4GB RAM。

? 存储:10GB可用空间。

除此之外,读者还需要安装下列软件。

? 浏览器:Google Chrome或Mozilla Firefox。

? Conda。

? JupyterLab和Jupyter Notebook。

? Sublime Text(最新版本)、Atom IDE(最新版本)或其他类似的文本编辑应用程序。

? Python 3。

? 安装以下Python库:NumPy、pandas、Matplotlib、seaborn、geoplotlib、Bokeh和squarify。

 

本书约定

本书通过不同的文本风格区分相应的信息类型。下面通过一些示例对此类风格以及具体含义的解释予以展示。

代码块如下所示。

# indexing the first value of the second row (1st row, 1st value)

first_val_first_row = dataset[0][0]

np.mean(first_val_first_row)

安装和配置过程

在阅读本书之前,需要安装Python 3.6、pip以及其他库,具体操作步骤如下。

安装Python

读者可访问https://realpython.com/installing-python/并遵循相关指令安装Python。

安装pip

(1)访问https://pip.pypa.io/en/stable/installing/并下载get-pip.py文件。

(2)使用下列命令进行安装:

python get-pip.py

考虑到计算机中Python之前的版本已经使用了Python命令,因而这里可能需要使用python3 get-pip.py命令。

安装库

使用pip命令安装库,如下所示。

python -m pip install --user numpy matplotlib jupyterlab pandas squarify bokeh geoplotlib seaborn

 

与JupyterLab和Jupyter Notebook协同工作

读者可能需要在JupyterLab中针对不同练习和操作展开工作。对此,可访问https://github.com/TrainingByPackt/Data-Visualization-with-Python下载相关内容。

读者可使用GitHub进行下载,或者单击右上角的Clone or download按钮,并以压缩文件方式进行下载。

当打开Jupyter Notebook时,需要通过终端遍历目录。对此,可输入下列命令:

cd Data-Visualization-with-Python/chapter01/

随后执行下列步骤:

(1)使用cd命令访问文件夹,如下所示。

cd Activity01

(2)调用jupyter-lab启用JupyterLab。类似地,对于Jupyter Notebook,可调用jupyter notebook命令。

导入Python库

本书中的练习和操作都需要使用各种库,其导入过程较为简单,具体各项操作步骤如下所示。

(1)当导入诸如NumPy和pandas时,可运行以下代码,这将把全部NumPy库导入当前文件中。

import numpy     # import numpy

(2)可利用np而非numpy调用numpy中的方法,如下所示。

import numpy as np   # import numpy and assign alias np

(3)导入部分内容。下列代码仅加载库中的mean方法。

from numpy import mean   # only import the mean method of numpy

 

安装代码包

将类的代码包复制至C:/Code文件夹中。

附加资源

读者可访问https://github.com/TrainingByPackt/Data-Visualization-with-Python查看本书的代码包。

除此之外,读者还可访问https://github.com/PacktPublishing/查看其他代码包以及视频内容。