目录
第1部分入门篇
●第1章全书指南3
1.1Python编程3
1.2数据分析5
1.3机器学习6
1.3.1任务9
1.3.2经验10
1.3.3性能11
1.4Kaggle竞赛13
1.5Git代码管理14
1.6章末小结15
●第2章基本环境搭建与配置16
2.1Windows操作系统下基本环境的搭建与配置16
2.1.1查看Windows的版本与原始配置16
2.1.2下载并安装Anaconda3(Windows)17
2.1.3使用Anaconda Navigator创建虚拟环境python_env(Windows)19
2.1.4在虚拟环境python_env下使用Anaconda Navigator安装
Jupyter Notebook与PyCharm Professional(Windows)20
2.2macOS操作系统下基本环境的搭建与配置21
2.2.1查看macOS的版本与原始配置21
2.2.2下载并安装Anaconda3(macOS)23
2.2.3使用Anaconda Navigator创建虚拟环境python_env(macOS)24
2.2.4在虚拟环境python_env下使用Anaconda Navigator安装
Jupyter Notebook与PyCharm Professional(macOS)24〖1〗Python机器学习及实践——从零开始通往Kaggle竞赛之路(2022年度版)〖1〗目录2.3Ubuntu操作系统下基本环境的搭建与配置26
2.3.1查看Ubuntu的版本与原始配置26
2.3.2下载并安装Anaconda3(Ubuntu)27
2.3.3在终端中创建虚拟环境python_env(Ubuntu)28
2.3.4在虚拟环境python_env下使用conda命令安装Jupyter
Notebook(Ubuntu)29
2.4Jupyter Notebook使用简介31
2.4.1在虚拟环境python_env下启动Jupyter Notebook31
2.4.2创建一个.ipynb文件32
2.4.3试运行.ipynb文件内的Python 3程序33
2.5PyCharm使用简介34
2.5.1在虚拟环境python_env下启动PyCharm34
2.5.2基于虚拟环境python_env的Python 3.8解释器创建一个
.py文件35
2.5.3试运行.py文件内的Python 3程序35
2.6章末小结37
第2部分基础篇
●第3章Python编程基础41
3.1Python编程环境配置41
3.1.1基于命令行/终端的交互式编程环境41
3.1.2基于Web的交互式开发环境42
3.1.3集成式开发环境43
3.2Python基本语法44
3.2.1赋值44
3.2.2注释45
3.2.3缩进46
3.3Python数据类型46
3.4Python数据运算49
3.5Python流程控制53
3.5.1分支语句53
3.5.2循环控制55
3.6Python函数设计56
3.7Python面向对象编程57
3.8Python编程库(包)导入60
3.9Python编程综合实践62
3.10章末小结63
●第4章pandas数据分析64
4.1pandas环境配置65
4.1.1使用Anaconda Navigator搭建和配置环境66
4.1.2使用conda命令搭建和配置环境66
4.2pandas核心数据结构67
4.2.1Series68
4.2.2DataFrame69
4.3pandas读取/写入文件数据70
4.3.1读取/写入CSV文件数据70
4.3.2读取/写入JSON文件数据73
4.3.3读取/写入Excel文件数据76
4.4pandas数据分析的常用功能80
4.4.1添加数据80
4.4.2删除数据83
4.4.3查询/筛选数据84
4.4.4修改数据86
4.4.5数据统计87
4.4.6数据排序89
4.4.7函数应用90
4.5pandas数据合并92
4.6pandas数据清洗93
4.7pandas数据分组与聚合95
4.8章末小结97
●第5章Scikitlearn单机机器学习98
5.1Scikitlearn环境配置99
5.1.1使用Anaconda Navigator搭建和配置环境100
5.1.2使用conda命令搭建和配置环境100
5.2Scikitlearn无监督学习102
5.2.1降维学习与可视化102
5.2.2聚类算法113
5.3Scikitlearn监督学习模型121
5.3.1分类预测121
5.3.2数值回归141
5.4Scikitlearn半监督学习模型154
5.4.1自学习框架155
5.4.2标签传播算法157
5.5单机机器学习模型的常用优化技巧159
5.5.1交叉验证160
5.5.2特征工程162
5.5.3参数正则化170
5.5.4超参数寻优174
5.5.5并行加速训练176
5.6章末小结179
第3部分进阶篇
●第6章PyTorch/TensorFlow/PaddlePaddle深度学习185
6.1PyTorch/TensorFlow/PaddlePaddle环境配置187
6.2前馈神经网络191
6.2.1前馈神经网络的PyTorch实践192
6.2.2前馈神经网络的TensorFlow实践197
6.2.3前馈神经网络的PaddlePaddle实践199
6.3卷积神经网络202
6.3.1卷积神经网络的PyTorch实践204
6.3.2卷积神经网络的TensorFlow实践208
6.3.3卷积神经网络的PaddlePaddle实践211
6.4循环神经网络214
6.4.1循环神经网络的PyTorch实践216
6.4.2循环神经网络的TensorFlow实践220
6.4.3循环神经网络的PaddlePaddle实践222
6.5自动编码器226
6.5.1自动编码器的PyTorch实践227
6.5.2自动编码器的TensorFlow实践231
6.5.3自动编码器的PaddlePaddle实践234
6.6神经网络模型的常用优化技巧238
6.6.1随机失活238
6.6.2批量标准化249
6.7章末小结260
●第7章PySparkML分布式机器学习262
7.1PySpark环境配置264
7.1.1使用Anaconda Navigator搭建和配置环境264
7.1.2使用conda命令搭建和配置环境265
7.1.3安装JRE267
7.2PySpark分布式数据结构268
7.2.1RDD269
7.2.2DataFrame271
7.3PySpark分布式特征工程273
7.3.1特征抽取273
7.3.2特征转换279
7.4PySparkML分布式机器学习模型284
7.5分布式机器学习模型的常用优化技巧292
7.5.1留一验证293
7.5.2K折交叉验证295
7.6章末小结297
第4部分实践篇
●第8章Kaggle竞赛实践301
8.1泰坦尼克号罹难乘客预测302
8.1.1数据分析303
8.1.2数据预处理305
8.1.3模型设计与寻优306
8.1.4提交测试307
8.2Ames房产价值评估308
8.2.1数据分析309
8.2.2数据预处理315
8.2.3模型设计与寻优316
8.2.4提交测试317
8.3推特短文本分类318
8.3.1数据分析320
8.3.2数据预处理321
8.3.3模型设计与寻优322
8.3.4提交测试323
8.4CIFAR100图像识别324
8.4.1数据分析326
8.4.2数据预处理327
8.4.3模型设计与寻优328
8.4.4提交测试331
8.5章末小结333
●第9章Git代码管理334
9.1Git本地环境搭建335
9.1.1Windows下Git工具的安装与配置335
9.1.2macOS下Git工具的安装与配置336
9.1.3Ubuntu下Git工具的安装与配置336
9.2Git远程仓库配置337
9.2.1GitHub介绍337
9.2.2GitHub远程仓库的创建与配置338
9.2.3Gitee介绍339
9.2.4Gitee远程仓库的创建与配置339
9.3Git基本指令340
9.3.1克隆仓库340
9.3.2提交修改341
9.3.3远程推送343
9.4Git分支管理343
9.4.1创建分支344
9.4.2分支合并345
9.4.3合并冲突346
9.4.4删除分支347
9.5贡献Git项目348
9.5.1Fork项目348
9.5.2本地克隆、修改与推送349
9.5.3发起拉取请求349
9.6章末小结351
●后记352
●第1章简介篇1
1.1机器学习综述1
1.1.1任务3
1.1.2经验5
1.1.3性能5
1.2Python编程库8
1.2.1为什么使用Python8
1.2.2Python机器学习的优势9
1.2.3NumPy & SciPy10
1.2.4Matplotlib11
1.2.5Scikitlearn11
1.2.6Pandas11
1.2.7Anaconda12
1.3Python环境配置12
1.3.1Windows系统环境12
1.3.2Mac OS 系统环境17
1.4Python编程基础18
1.4.1Python基本语法19
1.4.2Python 数据类型20
1.4.3Python 数据运算22
1.4.4Python 流程控制26
1.4.5Python 函数(模块)设计28
1.4.6Python 编程库(包)的导入29
1.4.7Python 基础综合实践30
1.5章末小结33●第2章基础篇34
2.1监督学习经典模型34
2.1.1分类学习35
2.1.2回归预测64
2.2无监督学习经典模型81
2.2.1数据聚类81
2.2.2特征降维91
2.3章末小结97
●第3章进阶篇98
3.1模型实用技巧98
3.1.1特征提升99
3.1.2模型正则化111
3.1.3模型检验121
3.1.4超参数搜索122
3.2流行库/模型实践129
3.2.1自然语言处理包(NLTK)131
3.2.2词向量(Word2Vec)技术133
3.2.3XGBoost模型138
3.2.4Tensorflow框架140
3.3章末小结152
●第4章实战篇153
4.1Kaggle平台简介153
4.2Titanic罹难乘客预测157
4.3IMDB影评得分估计165
4.4MNIST手写体数字图片识别174
4.5章末小结180
●后记181
●参考文献182
