图书前言

前    言

关于本书

理解并发现数据中的模式已是改进业务决策的重要方式之一。如果读者具备SQL方面的基础知识,但却不了解如何从数据中获得业务洞察结果,那么本书将十分适合你。

本书涵盖了读者需要的一切内容,包括SQL基础知识、讲述故事和识别数据中的“趋势”,进而能够通过识别模式和揭示更深入的洞察结果开始研究数据。除此之外,读者还将获得在SQL中使用不同类型数据的经验,包括时间序列、地理空间和文本数据。最后,读者还将了解如何在分析和自动化的帮助下提高SQL的生产效率,从而更快地获得洞察结果。

在阅读完本书后,读者将能够在日常业务场景中高效地使用SQL,并以分析专家的批判性眼光看待数据。

学习目标

本书主要涉及以下内容:

? 使用SQL归纳和识别数据中的模式。

? 采用特定的SQL字句和函数生成描述性统计结果。

? 使用SQL查询和子查询为分析过程准备数据。

? 利用窗口函数执行高级统计计算。

? 分析SQL中特殊的数据类型,包括地理空间数据和时间数据。

? 利用文本文件与PostgreSQL导入和导出数据。

? 调试无法正常运行的查询操作。

? 优化查询操作并改进其性能,以获得快速的查询结果。

如果读者是一名希望过渡到分析师的数据库工程师,或者是一名希望深入理解产品数据的后端工程师,那么本书将十分有用。另外,本书也是数据分析师和数据科学家的理想选择,从而提升其SQL数据分析技能。其间,基本的SQL知识和数据库概念将有助于理解本书中所涉及的概念。

本书完美地平衡了理论和实践之间的内容,同时还提供了数据分析的实际方法。本书侧重于为SQL和统计分析提供实用的指导,以便读者能够更好地理解数据。本书注重于实用性且涵盖了多项实践操作,其中采用了真实的业务场景,以使读者能够在高度相关的上下文环境中应用所需的新技能。

硬件和软件需求

为了获得最佳体验,建议读者使用以下硬件配置。

? 处理器:Intel Core i5(或具有同等计算能力的处理器)。

? 内存:4GB RAM。

? 存储:5GB可用空间。

此外,还应安装下列软件。

? 操作系统:Windows 7 SP1 64-bit、Windows 8.1 64-bit、Windows 10 64-bit、Linux(Ubuntu 16.04或后续版本、Debian、Red Hat或Suse),或者最新版本的macOS。

? PostgreSQL 10.9(https://www.postgresql.org/download/)。

? Anaconda Python 3.7(https://www.anaconda.com/distribution/#download-section)。

? Git 2或后续版本。

本书约定

本书代码采用下列格式:

CREATE TEMP VIEW customers_sample AS (

  SELECT *

  FROM customers

  LIMIT 5

);

\copy customers_sample TO 'my_file.csv' WITH CSV HEADER

DROP VIEW customers_sample;

安装和配置

在对数据进行操作之前,需要提供有效的操作环境,下面将对此予以介绍。

 

安装PostgreSQL 10.9

1.在Windows操作系统中进行安装

读者可访问https://www.postgresql.org/download/windows/以下载PostgreSQL 10。

2.在Linux操作系统中进行安装

读者可通过下列命令行在Ubuntu或Debian Linux上安装PostgreSQL:

sudo apt-get install postgresl-11

3.在macOS操作系统中进行安装

读者可访问https://www.postgresql.org/download/macosx/以下载PostgreSQL 10。

安装Python

1.在Windows操作系统中进行安装

(1)读者可访问https://www.anaconda.com/distribution/#windows,并选取期望安装的Python版本。

(2)从下载页面中选择Python 3.7。

(3)确保针对计算机系统安装正确的架构,即32位或64位。该信息位于操作系统的System Properties窗口中。

(4)在下载了安装程序后,双击该文件并遵循相关指令即可。

2.在Linux操作系统中进行安装

当在Linux操作系统中安装Python时,需要使用以下两个选项。

(1)打开命令提示符,运行python3 --version,以验证p\Python 3尚未被安装。

(2)安装Python 3,可运行下列命令:

sudo apt-get update

sudo apt-get install python3.7

(3)如遇问题,读者可查找大量的在线资源,这对于解决实际问题很有帮助。

(4)读者可访问https://www.anaconda.com/distribution/#linux下载安装程序,遵循相应的指令即可安装Anaconda Linux。

3.在macOS操作系统中进行安装

与Linux类似,存在多种方法可在Mac上安装Python,具体操作步骤如下。

(1)打开Mac终端(按CMD+空格键),在搜索框中输入terminal并按Enter键。

(2)通过命令行安装Xcode,即运行xcode-select --install。

(3)安装Python 3的最简单方式是使用Homebrew。Homebrew可通过命令行进行安装,即运行ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/ install)"。

(4)向$PATH环境变量中添加Homebrew。对此,运行sudo nano ~/.profile并在命令行中打开配置文件,并于底部插入export PATH="/usr/local/opt/python/libexec/bin:$PATH"。

(5)最后一步是安装Python。在命令行中,运行brew install python。

(6)另外,也可通过Anaconda安装程序(对应网址为https://www.anaconda.com/ distribution/#macos)来安装Python。

安装Git

1.在Windows或macOS操作系统中进行安装

读者可访问https://git-scm.com/以下载并安装适用于Windows或Mac环境下的Git。对于有经验的用户,建议通过高级客户端安装Git,如GitKraken(对应网址为https://www. gitkraken.com/)。

2.在Linux操作系统中进行安装

通过下列命令可轻松地安装Git:

sudo apt-get install git

如果用户偏好使用图形界面,GitKraken(对应网址为https://www.gitkraken.com/)也是一种基于Linux的选择方案。

加载样本数据集

本书中大量的练习都将使用样本数据集sqlda,其中包含了与虚构的电动汽车公司ZoomZoom相关的数据。当在PostgreSQL上安装该数据库时,可从本书GitHub存储库的Datasets文件夹(对应网址为https://github.com/TrainingByPackt/SQL-for-Data-Analytics/tree/ master/Datasets)中复制data.dump文件。随后,利用下列命令在命令行中加载data.dump文件:

psql < data.dump

其中,psql表示为postgreSQL客户端。

运行SQL文件

 利用下列命令可在命令行中通过*.sql文件执行命令或语句:

psql < commands.sql

 另外,也可通过SQL解释器予以执行,如下所示。

database=#

附加资源

本书的代码包位于GitHub中,对应网址为https://github.com/TrainingByPackt/SQL- for-Data-Analytics。此外,读者还可访问https://github.com/PacktPublishing/以查看其他代码包和视频内容。

关于本书的图像内容,读者可访问https://github.com/TrainingByPackt/SQL-for-Data- Analytics/blob/master/Graphic%20Bundle/Graphic%20Bundle_ColorImages.pdf予以查看。