图书目录

目录

第1篇语 言 基 础

第1章概述

1.1Python的历史和现在

1.2Python的设计哲学和特点

1.3Python之禅

1.4Python未来的发展

第2章学习Python的准备

2.1程序的下载和安装

2.2Python开发环境

2.2.1基本开发环境

2.2.2PyCharm集成开发环境

2.3Python编码规范

2.3.1Python风格规范

2.3.2Python语言规范

2.4语法说明

第3章数据类型和表达式

3.1标识符、变量及其赋值

3.1.1标识符

3.1.2变量及其赋值

3.1.3常量

3.2基本数据类型

3.2.1布尔型

3.2.2数值类型

3.2.3字符串

3.2.4字符串的格式化

3.2.5空值

3.2.6常用数据类型的转换

3.3运算符及表达式

3.3.1算术运算符

3.3.2逻辑运算符

3.3.3比较运算符

3.3.4赋值运算符

3.3.5运算符的优先级

3.4基本输入/输出

3.4.1input()

3.4.2print()

第4章程序控制结构

4.1选择结构

4.1.1if语句

4.1.2ifelse语句

4.1.3ifelifelse语句

4.1.4选择结构的嵌套

4.2循环结构

4.2.1while循环

4.2.2for循环

4.2.3循环的辅助控制

第5章组合数据类型

5.1序列

5.1.1序列概述

5.1.2列表

5.1.3元组

5.1.4字节序列

5.2集合

5.2.1集合的定义和创建

5.2.2集合的运算

5.2.3集合的内置函数

5.2.4可变集合独有的方法

5.3字典

5.3.1映射类型

5.3.2字典概述

5.4综合案例

5.4.1方法一: 使用列表存储数据

5.4.2方法二: 使用字典存储数据

5.4.3小结

第6章函数

6.1函数的定义与调用

6.1.1函数的定义

6.1.2函数的调用

6.1.3前向引用

6.2函数的参数及返回值

6.2.1参数值的传递与修改

6.2.2参数的按位置传递与按名称传递

6.2.3参数的默认值

6.2.4可变数量参数

6.2.5函数的返回值

6.3变量的作用域

6.3.1全局变量与局部变量

6.3.2标识符解析的LEGB法则

6.4函数的递归调用

6.5函数式编程

6.5.1函数式编程

6.5.2lambda表达式

第7章文件

7.1文件和流

7.2文件对象

7.2.1with语句和上下文管理协议

7.2.2打开文件

7.2.3关闭文件

7.3文件的基本操作

7.3.1文本文件的读写

7.3.2二进制文件的读写

7.4随机文件的读写

7.5其他文件操作

7.5.1CSV文件格式的读取和写入

7.5.2利用os模块进行文件访问

7.6对象序列化

7.6.1使用pickle模块将对象序列化

7.6.2使用pickle模块将对象反序列化

7.7输入输出重定向

第8章面向对象程序设计

8.1面向对象程序设计概述

8.1.1面向对象

8.1.2Python中的面向对象

8.2类和实例

8.2.1类的定义

8.2.2实例化对象

8.3属性

8.3.1私有属性与公有属性

8.3.2数据属性

8.3.3方法

8.3.4内置特殊方法

8.4继承与多态性

8.4.1继承

8.4.2多态性与运算符重载

8.5设计实例

第9章异常处理

9.1异常和异常处理语句

9.1.1异常

9.1.2异常处理

9.1.3处理多个异常

9.1.4else子句

9.1.5finally子句

9.2抛出异常的方法

9.3自定义异常类型

第2篇常用的第三方库

第10章数据获取(爬虫)

10.1requests

10.1.1下载、安装和导入

10.1.2requests的基本方法

10.1.3get方法

10.1.4错误和异常

10.1.5post方法

10.1.6其他几种方法

10.2scrapy

10.2.1scrapy的安装

10.2.2scrapy的主要模块

10.2.3scrapy的工作过程

10.2.4使用scrapy爬取静态页面数据

10.2.5使用scrapy爬取动态页面数据

10.2.6小结

第11章数据计算和分析

11.1NumPy

11.1.1NumPy的下载、安装和导入

11.1.2NumPy支持的数据类型

11.1.3创建数组

11.1.4数组的属性

11.1.5数组的输出

11.1.6数组的运算

11.1.7数组的索引

11.1.8数组形状的调整

11.1.9统计特征计算

11.1.10参考文档

11.2Pandas

11.2.1Pandas的下载、安装和导入

11.2.2Series的创建和基本操作

11.2.3Series的常用函数

11.2.4Series的运算

11.2.5DataFrame的创建

11.2.6DataFrame的使用

11.2.7DataFrame打开CVS文件

11.2.8其他常用函数

11.3SciPy

11.3.1物理和数学常数

11.3.2插值interpolate

11.3.3图像处理

第12章数据可视化

12.1matplotlib工具包

12.1.1matplotlib下载、安装和导入

12.1.2matplotlib的基本框架

12.1.3使用matplotlib绘图的辅助性函数

12.1.4直方图

12.1.5线图

12.1.6散点图

12.1.7饼图

12.1.8小结

12.2pyecharts工具包

12.2.1pyecharts下载、安装和导入

12.2.2热力图

第13章大数据平台

13.1PySpark

13.1.1在PyCharm中安装PySpark 

13.1.2安装Java SE Development Kit 

13.1.3安装Hadoop

13.1.4验证安装环境是否成功

13.1.5PySpark的常用公共类

13.1.6PySpark编程概述

13.1.7RDD的基本操作

13.2RDD常用的转换和操作函数

第14章中文分词与词云

14.1jieba库

14.1.1中文分词简介

14.1.2jieba简介

14.1.3案例高频词提取

14.2wordcloud库

14.2.1wordcloud库简介

14.2.2案例1基本用法

14.2.3案例2使用背景图像(官网案例)

14.2.4案例3中文词云与使用模板图片颜色

第3篇实 践 应 用

第15章电力系统用电量预测(能源)

15.1案例背景

15.2数据准备

15.2.1数据说明

15.2.2初窥数据

15.2.3日期字段格式转换

15.2.4数据汇总聚合

15.2.5添加测试数据

15.2.6拼接成总体数据

15.3特征工程

15.3.1构造和时间相关的强特征

15.3.2添加周末特征信息

15.3.3添加一个月4周的周信息

15.3.4添加上中下旬信息

15.3.5添加上半月下半月信息

15.3.6手动填充节日信息

15.4数据建模

15.4.1添加独热向量编码/onehot encoding

15.4.2树状模型建模: 分离训练集和测试集

15.4.3建模与调参

15.4.4进行结果预测

第16章电影广告推荐系统(电子商务)

16.1案例背景

16.1.1电子商务和推荐系统

16.1.2长尾效应

16.1.3精确性和多样性

16.2案例目标

16.3协同过滤算法简介

16.3.1基于用户的协同过滤算法

16.3.2基于项目的协同过滤算法

16.3.3与基于内容推荐的区别

16.4数据集初探

16.5搭建基于协同过滤算法的推荐系统

16.6小结

第17章金融风控评分卡模型应用(金融)

17.1案例介绍

17.2背景知识

17.2.1数据预处理

17.2.2变量筛选

17.2.3构建逻辑回归模型

17.2.4模型评估

17.2.5转化为评分卡

17.3数据介绍

17.4数据探索

17.4.1查看数据概况

17.4.2定义不同类型的变量

17.4.3探索性分析

17.5数据预处理

17.5.1变量分箱

17.5.2WOE编码并计算变量IV值

17.6构建lr模型

17.7模型评估

17.8转化为评分卡

17.9小结

第18章基于社交网络评论的民众情感分析(社会科学)

18.1案例背景与目标

18.2Word2Vec简介

18.3情感分析模型构建

18.3.1训练Word2Vec模型

18.3.2训练情感分类模型

18.3.3分析人工智能数据并进行可视化

18.4小结

第19章雾霾环境大数据分析(环境科学)

19.1案例背景与目标

19.2分析方法与过程

19.2.1分析数据文件

19.2.2明确数据应用场景

19.3数据预处理

19.3.1过滤删除数据集中的脏数据 

19.3.2选择本案例中需要使用的相关列数据

19.4模型构建

19.4.1统计月平均气温

19.4.2统计每日空气质量

19.5可视化展现

19.6小结

第20章抓取网站房源信息并进行可视化分析(房地产)

20.1案例背景与目标

20.2分析方法与过程

20.3数据爬取

20.3.1准备工作

20.3.2抓取列表页

20.3.3页面解析

20.3.4数据并整理到数据表中

20.4数据清洗及预处理

20.5结果可视化

20.5.1各社区房屋数量统计

20.5.2各社区房屋每平方米平均价格统计

20.5.3户型数量分布信息统计

20.5.4房屋面积统计

20.5.5热度分布统计(看房次数/发布日期)

20.5.6房屋建造时间对房屋单价的影响曲线

20.5.7特征相关性的热力图分析

20.5.8利用词云进行词频统计

20.6小结

第21章利用PySpark进行网站海量日志分析(大数据计算)

21.1案例背景

21.2分析方法与过程

21.2.1分析了解Apache Web服务器日志文件

21.2.2明确数据应用场景

21.3数据预处理

21.4日志深入解析和可视化

21.4.1最高频的正确响应和错误响应endpoints

21.4.2对每一天不同的host做可视化

21.4.3对返回404的结果做分析

21.5小结

第22章手写数字识别(人工智能)

22.1背景知识和目标

22.2神经网络模型简介

22.2.1神经元

22.2.2神经网络

22.2.3所谓的学习

22.3分析方法与过程

22.4数据初探

22.5神经网络模型搭建

22.6上机实验

22.7小结

第23章奔驰快速检测项目(工业制造)

23.1案例背景与目标

23.2特征工程

23.3分析方法与过程

23.4模型构建与重要度分析

23.5xgboost方法

23.6RandomForest方法

23.7小结

第24章美国农药使用分析(农业科学)

24.1案例背景与目标

24.2探索数据

24.2.1数据的导入与合并

24.2.2考察缺失值

24.2.3数据的自查

24.3数据统计与可视化分析

24.4小结

参考文献