目录
第1篇语 言 基 础
第1章概述
1.1Python的历史和现在
1.2Python的设计哲学和特点
1.3Python之禅
1.4Python未来的发展
第2章学习Python的准备
2.1程序的下载和安装
2.2Python开发环境
2.2.1基本开发环境
2.2.2PyCharm集成开发环境
2.3Python编码规范
2.3.1Python风格规范
2.3.2Python语言规范
2.4语法说明
第3章数据类型和表达式
3.1标识符、变量及其赋值
3.1.1标识符
3.1.2变量及其赋值
3.1.3常量
3.2基本数据类型
3.2.1布尔型
3.2.2数值类型
3.2.3字符串
3.2.4字符串的格式化
3.2.5空值
3.2.6常用数据类型的转换
3.3运算符及表达式
3.3.1算术运算符
3.3.2逻辑运算符
3.3.3比较运算符
3.3.4赋值运算符
3.3.5运算符的优先级
3.4基本输入/输出
3.4.1input()
3.4.2print()
第4章程序控制结构
4.1选择结构
4.1.1if语句
4.1.2ifelse语句
4.1.3ifelifelse语句
4.1.4选择结构的嵌套
4.2循环结构
4.2.1while循环
4.2.2for循环
4.2.3循环的辅助控制
第5章组合数据类型
5.1序列
5.1.1序列概述
5.1.2列表
5.1.3元组
5.1.4字节序列
5.2集合
5.2.1集合的定义和创建
5.2.2集合的运算
5.2.3集合的内置函数
5.2.4可变集合独有的方法
5.3字典
5.3.1映射类型
5.3.2字典概述
5.4综合案例
5.4.1方法一: 使用列表存储数据
5.4.2方法二: 使用字典存储数据
5.4.3小结
第6章函数
6.1函数的定义与调用
6.1.1函数的定义
6.1.2函数的调用
6.1.3前向引用
6.2函数的参数及返回值
6.2.1参数值的传递与修改
6.2.2参数的按位置传递与按名称传递
6.2.3参数的默认值
6.2.4可变数量参数
6.2.5函数的返回值
6.3变量的作用域
6.3.1全局变量与局部变量
6.3.2标识符解析的LEGB法则
6.4函数的递归调用
6.5函数式编程
6.5.1函数式编程
6.5.2lambda表达式
第7章文件
7.1文件和流
7.2文件对象
7.2.1with语句和上下文管理协议
7.2.2打开文件
7.2.3关闭文件
7.3文件的基本操作
7.3.1文本文件的读写
7.3.2二进制文件的读写
7.4随机文件的读写
7.5其他文件操作
7.5.1CSV文件格式的读取和写入
7.5.2利用os模块进行文件访问
7.6对象序列化
7.6.1使用pickle模块将对象序列化
7.6.2使用pickle模块将对象反序列化
7.7输入输出重定向
第8章面向对象程序设计
8.1面向对象程序设计概述
8.1.1面向对象
8.1.2Python中的面向对象
8.2类和实例
8.2.1类的定义
8.2.2实例化对象
8.3属性
8.3.1私有属性与公有属性
8.3.2数据属性
8.3.3方法
8.3.4内置特殊方法
8.4继承与多态性
8.4.1继承
8.4.2多态性与运算符重载
8.5设计实例
第9章异常处理
9.1异常和异常处理语句
9.1.1异常
9.1.2异常处理
9.1.3处理多个异常
9.1.4else子句
9.1.5finally子句
9.2抛出异常的方法
9.3自定义异常类型
第2篇常用的第三方库
第10章数据获取(爬虫)
10.1requests
10.1.1下载、安装和导入
10.1.2requests的基本方法
10.1.3get方法
10.1.4错误和异常
10.1.5post方法
10.1.6其他几种方法
10.2scrapy
10.2.1scrapy的安装
10.2.2scrapy的主要模块
10.2.3scrapy的工作过程
10.2.4使用scrapy爬取静态页面数据
10.2.5使用scrapy爬取动态页面数据
10.2.6小结
第11章数据计算和分析
11.1NumPy
11.1.1NumPy的下载、安装和导入
11.1.2NumPy支持的数据类型
11.1.3创建数组
11.1.4数组的属性
11.1.5数组的输出
11.1.6数组的运算
11.1.7数组的索引
11.1.8数组形状的调整
11.1.9统计特征计算
11.1.10参考文档
11.2Pandas
11.2.1Pandas的下载、安装和导入
11.2.2Series的创建和基本操作
11.2.3Series的常用函数
11.2.4Series的运算
11.2.5DataFrame的创建
11.2.6DataFrame的使用
11.2.7DataFrame打开CVS文件
11.2.8其他常用函数
11.3SciPy
11.3.1物理和数学常数
11.3.2插值interpolate
11.3.3图像处理
第12章数据可视化
12.1matplotlib工具包
12.1.1matplotlib下载、安装和导入
12.1.2matplotlib的基本框架
12.1.3使用matplotlib绘图的辅助性函数
12.1.4直方图
12.1.5线图
12.1.6散点图
12.1.7饼图
12.1.8小结
12.2pyecharts工具包
12.2.1pyecharts下载、安装和导入
12.2.2热力图
第13章大数据平台
13.1PySpark
13.1.1在PyCharm中安装PySpark
13.1.2安装Java SE Development Kit
13.1.3安装Hadoop
13.1.4验证安装环境是否成功
13.1.5PySpark的常用公共类
13.1.6PySpark编程概述
13.1.7RDD的基本操作
13.2RDD常用的转换和操作函数
第14章中文分词与词云
14.1jieba库
14.1.1中文分词简介
14.1.2jieba简介
14.1.3案例高频词提取
14.2wordcloud库
14.2.1wordcloud库简介
14.2.2案例1基本用法
14.2.3案例2使用背景图像(官网案例)
14.2.4案例3中文词云与使用模板图片颜色
第3篇实 践 应 用
第15章电力系统用电量预测(能源)
15.1案例背景
15.2数据准备
15.2.1数据说明
15.2.2初窥数据
15.2.3日期字段格式转换
15.2.4数据汇总聚合
15.2.5添加测试数据
15.2.6拼接成总体数据
15.3特征工程
15.3.1构造和时间相关的强特征
15.3.2添加周末特征信息
15.3.3添加一个月4周的周信息
15.3.4添加上中下旬信息
15.3.5添加上半月下半月信息
15.3.6手动填充节日信息
15.4数据建模
15.4.1添加独热向量编码/onehot encoding
15.4.2树状模型建模: 分离训练集和测试集
15.4.3建模与调参
15.4.4进行结果预测
第16章电影广告推荐系统(电子商务)
16.1案例背景
16.1.1电子商务和推荐系统
16.1.2长尾效应
16.1.3精确性和多样性
16.2案例目标
16.3协同过滤算法简介
16.3.1基于用户的协同过滤算法
16.3.2基于项目的协同过滤算法
16.3.3与基于内容推荐的区别
16.4数据集初探
16.5搭建基于协同过滤算法的推荐系统
16.6小结
第17章金融风控评分卡模型应用(金融)
17.1案例介绍
17.2背景知识
17.2.1数据预处理
17.2.2变量筛选
17.2.3构建逻辑回归模型
17.2.4模型评估
17.2.5转化为评分卡
17.3数据介绍
17.4数据探索
17.4.1查看数据概况
17.4.2定义不同类型的变量
17.4.3探索性分析
17.5数据预处理
17.5.1变量分箱
17.5.2WOE编码并计算变量IV值
17.6构建lr模型
17.7模型评估
17.8转化为评分卡
17.9小结
第18章基于社交网络评论的民众情感分析(社会科学)
18.1案例背景与目标
18.2Word2Vec简介
18.3情感分析模型构建
18.3.1训练Word2Vec模型
18.3.2训练情感分类模型
18.3.3分析人工智能数据并进行可视化
18.4小结
第19章雾霾环境大数据分析(环境科学)
19.1案例背景与目标
19.2分析方法与过程
19.2.1分析数据文件
19.2.2明确数据应用场景
19.3数据预处理
19.3.1过滤删除数据集中的脏数据
19.3.2选择本案例中需要使用的相关列数据
19.4模型构建
19.4.1统计月平均气温
19.4.2统计每日空气质量
19.5可视化展现
19.6小结
第20章抓取网站房源信息并进行可视化分析(房地产)
20.1案例背景与目标
20.2分析方法与过程
20.3数据爬取
20.3.1准备工作
20.3.2抓取列表页
20.3.3页面解析
20.3.4数据并整理到数据表中
20.4数据清洗及预处理
20.5结果可视化
20.5.1各社区房屋数量统计
20.5.2各社区房屋每平方米平均价格统计
20.5.3户型数量分布信息统计
20.5.4房屋面积统计
20.5.5热度分布统计(看房次数/发布日期)
20.5.6房屋建造时间对房屋单价的影响曲线
20.5.7特征相关性的热力图分析
20.5.8利用词云进行词频统计
20.6小结
第21章利用PySpark进行网站海量日志分析(大数据计算)
21.1案例背景
21.2分析方法与过程
21.2.1分析了解Apache Web服务器日志文件
21.2.2明确数据应用场景
21.3数据预处理
21.4日志深入解析和可视化
21.4.1最高频的正确响应和错误响应endpoints
21.4.2对每一天不同的host做可视化
21.4.3对返回404的结果做分析
21.5小结
第22章手写数字识别(人工智能)
22.1背景知识和目标
22.2神经网络模型简介
22.2.1神经元
22.2.2神经网络
22.2.3所谓的学习
22.3分析方法与过程
22.4数据初探
22.5神经网络模型搭建
22.6上机实验
22.7小结
第23章奔驰快速检测项目(工业制造)
23.1案例背景与目标
23.2特征工程
23.3分析方法与过程
23.4模型构建与重要度分析
23.5xgboost方法
23.6RandomForest方法
23.7小结
第24章美国农药使用分析(农业科学)
24.1案例背景与目标
24.2探索数据
24.2.1数据的导入与合并
24.2.2考察缺失值
24.2.3数据的自查
24.3数据统计与可视化分析
24.4小结
参考文献
