清华大学出版社--图书前言

图书前言

前言

关于本书

理解并发现数据中的模式已是改进业务决策的重要方式之一。如果读者具备SQL方面的基础知识，但却不了解如何从数据中获得业务洞察结果，那么本书将十分适合你。

本书涵盖了读者需要的一切内容，包括SQL基础知识、讲述故事和识别数据中的“趋势”，进而能够通过识别模式和揭示更深入的洞察结果开始研究数据。除此之外，读者还将获得在SQL中使用不同类型数据的经验，包括时间序列、地理空间和文本数据。最后，读者还将了解如何在分析和自动化的帮助下提高SQL的生产效率，从而更快地获得洞察结果。

在阅读完本书后，读者将能够在日常业务场景中高效地使用SQL，并以分析专家的批判性眼光看待数据。

学习目标

本书主要涉及以下内容：

? 使用SQL归纳和识别数据中的模式。

? 采用特定的SQL字句和函数生成描述性统计结果。

? 使用SQL查询和子查询为分析过程准备数据。

? 利用窗口函数执行高级统计计算。

? 分析SQL中特殊的数据类型，包括地理空间数据和时间数据。

? 利用文本文件与PostgreSQL导入和导出数据。

? 调试无法正常运行的查询操作。

? 优化查询操作并改进其性能，以获得快速的查询结果。

如果读者是一名希望过渡到分析师的数据库工程师，或者是一名希望深入理解产品数据的后端工程师，那么本书将十分有用。另外，本书也是数据分析师和数据科学家的理想选择，从而提升其SQL数据分析技能。其间，基本的SQL知识和数据库概念将有助于理解本书中所涉及的概念。

本书完美地平衡了理论和实践之间的内容，同时还提供了数据分析的实际方法。本书侧重于为SQL和统计分析提供实用的指导，以便读者能够更好地理解数据。本书注重于实用性且涵盖了多项实践操作，其中采用了真实的业务场景，以使读者能够在高度相关的上下文环境中应用所需的新技能。

硬件和软件需求

为了获得最佳体验，建议读者使用以下硬件配置。

? 处理器：Intel Core i5（或具有同等计算能力的处理器）。

? 内存：4GB RAM。

? 存储：5GB可用空间。

此外，还应安装下列软件。

? 操作系统：Windows 7 SP1 64-bit、Windows 8.1 64-bit、Windows 10 64-bit、Linux（Ubuntu 16.04或后续版本、Debian、Red Hat或Suse），或者最新版本的macOS。

? PostgreSQL 10.9（https://www.postgresql.org/download/）。

? Anaconda Python 3.7（https://www.anaconda.com/distribution/#download-section）。

? Git 2或后续版本。

本书约定

本书代码采用下列格式：

CREATE TEMP VIEW customers_sample AS (

SELECT *

FROM customers

LIMIT 5

);

\copy customers_sample TO 'my_file.csv' WITH CSV HEADER

DROP VIEW customers_sample;

安装和配置

在对数据进行操作之前，需要提供有效的操作环境，下面将对此予以介绍。

安装PostgreSQL 10.9

1．在Windows操作系统中进行安装

读者可访问https://www.postgresql.org/download/windows/以下载PostgreSQL 10。

2．在Linux操作系统中进行安装

读者可通过下列命令行在Ubuntu或Debian Linux上安装PostgreSQL：

sudo apt-get install postgresl-11

3．在macOS操作系统中进行安装

读者可访问https://www.postgresql.org/download/macosx/以下载PostgreSQL 10。

安装Python

1．在Windows操作系统中进行安装

（1）读者可访问https://www.anaconda.com/distribution/#windows，并选取期望安装的Python版本。

（2）从下载页面中选择Python 3.7。

（3）确保针对计算机系统安装正确的架构，即32位或64位。该信息位于操作系统的System Properties窗口中。

（4）在下载了安装程序后，双击该文件并遵循相关指令即可。

2．在Linux操作系统中进行安装

当在Linux操作系统中安装Python时，需要使用以下两个选项。

（1）打开命令提示符，运行python3 --version，以验证p\Python 3尚未被安装。

（2）安装Python 3，可运行下列命令：

sudo apt-get update

sudo apt-get install python3.7

（3）如遇问题，读者可查找大量的在线资源，这对于解决实际问题很有帮助。

（4）读者可访问https://www.anaconda.com/distribution/#linux下载安装程序，遵循相应的指令即可安装Anaconda Linux。

3．在macOS操作系统中进行安装

与Linux类似，存在多种方法可在Mac上安装Python，具体操作步骤如下。

（1）打开Mac终端（按CMD+空格键），在搜索框中输入terminal并按Enter键。

（2）通过命令行安装Xcode，即运行xcode-select --install。

（3）安装Python 3的最简单方式是使用Homebrew。Homebrew可通过命令行进行安装，即运行ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/ install)"。

（4）向$PATH环境变量中添加Homebrew。对此，运行sudo nano ~/.profile并在命令行中打开配置文件，并于底部插入export PATH="/usr/local/opt/python/libexec/bin:$PATH"。

（5）最后一步是安装Python。在命令行中，运行brew install python。

（6）另外，也可通过Anaconda安装程序（对应网址为https://www.anaconda.com/ distribution/#macos）来安装Python。

安装Git

1．在Windows或macOS操作系统中进行安装

读者可访问https://git-scm.com/以下载并安装适用于Windows或Mac环境下的Git。对于有经验的用户，建议通过高级客户端安装Git，如GitKraken（对应网址为https://www. gitkraken.com/）。

2．在Linux操作系统中进行安装

通过下列命令可轻松地安装Git：

sudo apt-get install git

如果用户偏好使用图形界面，GitKraken（对应网址为https://www.gitkraken.com/）也是一种基于Linux的选择方案。

加载样本数据集

本书中大量的练习都将使用样本数据集sqlda，其中包含了与虚构的电动汽车公司ZoomZoom相关的数据。当在PostgreSQL上安装该数据库时，可从本书GitHub存储库的Datasets文件夹（对应网址为https://github.com/TrainingByPackt/SQL-for-Data-Analytics/tree/ master/Datasets）中复制data.dump文件。随后，利用下列命令在命令行中加载data.dump文件：

psql < data.dump

其中，psql表示为postgreSQL客户端。

运行SQL文件

利用下列命令可在命令行中通过*.sql文件执行命令或语句：

psql < commands.sql

另外，也可通过SQL解释器予以执行，如下所示。

database=#

附加资源

本书的代码包位于GitHub中，对应网址为https://github.com/TrainingByPackt/SQL- for-Data-Analytics。此外，读者还可访问https://github.com/PacktPublishing/以查看其他代码包和视频内容。

关于本书的图像内容，读者可访问https://github.com/TrainingByPackt/SQL-for-Data- Analytics/blob/master/Graphic%20Bundle/Graphic%20Bundle_ColorImages.pdf予以查看。

关于我们

新闻资讯

服务支持

关于我们

新闻资讯

服务支持

图书前言