图书目录

目录

第1部分入门篇

●第1章全书指南3

1.1Python编程3

1.2数据分析5

1.3机器学习6

1.3.1任务9

1.3.2经验10

1.3.3性能11

1.4Kaggle竞赛13

1.5Git代码管理14

1.6章末小结15

●第2章基本环境搭建与配置16

2.1Windows操作系统下基本环境的搭建与配置16

2.1.1查看Windows的版本与原始配置16

2.1.2下载并安装Anaconda3(Windows)17

2.1.3使用Anaconda Navigator创建虚拟环境python_env(Windows)19

2.1.4在虚拟环境python_env下使用Anaconda Navigator安装

Jupyter Notebook与PyCharm Professional(Windows)20

2.2macOS操作系统下基本环境的搭建与配置21

2.2.1查看macOS的版本与原始配置21

2.2.2下载并安装Anaconda3(macOS)23

2.2.3使用Anaconda Navigator创建虚拟环境python_env(macOS)24

2.2.4在虚拟环境python_env下使用Anaconda Navigator安装

Jupyter Notebook与PyCharm Professional(macOS)24〖1〗Python机器学习及实践——从零开始通往Kaggle竞赛之路(2022年度版)〖1〗目录2.3Ubuntu操作系统下基本环境的搭建与配置26

2.3.1查看Ubuntu的版本与原始配置26

2.3.2下载并安装Anaconda3(Ubuntu)27

2.3.3在终端中创建虚拟环境python_env(Ubuntu)28

2.3.4在虚拟环境python_env下使用conda命令安装Jupyter 

Notebook(Ubuntu)29

2.4Jupyter Notebook使用简介31

2.4.1在虚拟环境python_env下启动Jupyter Notebook31

2.4.2创建一个.ipynb文件32

2.4.3试运行.ipynb文件内的Python 3程序33

2.5PyCharm使用简介34

2.5.1在虚拟环境python_env下启动PyCharm34

2.5.2基于虚拟环境python_env的Python 3.8解释器创建一个

.py文件35

2.5.3试运行.py文件内的Python 3程序35

2.6章末小结37

第2部分基础篇

●第3章Python编程基础41

3.1Python编程环境配置41

3.1.1基于命令行/终端的交互式编程环境41

3.1.2基于Web的交互式开发环境42

3.1.3集成式开发环境43

3.2Python基本语法44

3.2.1赋值44

3.2.2注释45

3.2.3缩进46

3.3Python数据类型46

3.4Python数据运算49

3.5Python流程控制53

3.5.1分支语句53

3.5.2循环控制55

3.6Python函数设计56

3.7Python面向对象编程57

3.8Python编程库(包)导入60

3.9Python编程综合实践62

3.10章末小结63

●第4章pandas数据分析64

4.1pandas环境配置65

4.1.1使用Anaconda Navigator搭建和配置环境66

4.1.2使用conda命令搭建和配置环境66

4.2pandas核心数据结构67

4.2.1Series68

4.2.2DataFrame69

4.3pandas读取/写入文件数据70

4.3.1读取/写入CSV文件数据70

4.3.2读取/写入JSON文件数据73

4.3.3读取/写入Excel文件数据76

4.4pandas数据分析的常用功能80

4.4.1添加数据80

4.4.2删除数据83

4.4.3查询/筛选数据84

4.4.4修改数据86

4.4.5数据统计87

4.4.6数据排序89

4.4.7函数应用90

4.5pandas数据合并92

4.6pandas数据清洗93

4.7pandas数据分组与聚合95

4.8章末小结97

●第5章Scikitlearn单机机器学习98

5.1Scikitlearn环境配置99

5.1.1使用Anaconda Navigator搭建和配置环境100

5.1.2使用conda命令搭建和配置环境100

5.2Scikitlearn无监督学习102

5.2.1降维学习与可视化102

5.2.2聚类算法113

5.3Scikitlearn监督学习模型121

5.3.1分类预测121

5.3.2数值回归141

5.4Scikitlearn半监督学习模型154

5.4.1自学习框架155

5.4.2标签传播算法157

5.5单机机器学习模型的常用优化技巧159

5.5.1交叉验证160

5.5.2特征工程162

5.5.3参数正则化170

5.5.4超参数寻优174

5.5.5并行加速训练176

5.6章末小结179

第3部分进阶篇

●第6章PyTorch/TensorFlow/PaddlePaddle深度学习185

6.1PyTorch/TensorFlow/PaddlePaddle环境配置187

6.2前馈神经网络191

6.2.1前馈神经网络的PyTorch实践192

6.2.2前馈神经网络的TensorFlow实践197

6.2.3前馈神经网络的PaddlePaddle实践199

6.3卷积神经网络202

6.3.1卷积神经网络的PyTorch实践204

6.3.2卷积神经网络的TensorFlow实践208

6.3.3卷积神经网络的PaddlePaddle实践211

6.4循环神经网络214

6.4.1循环神经网络的PyTorch实践216

6.4.2循环神经网络的TensorFlow实践220

6.4.3循环神经网络的PaddlePaddle实践222

6.5自动编码器226

6.5.1自动编码器的PyTorch实践227

6.5.2自动编码器的TensorFlow实践231

6.5.3自动编码器的PaddlePaddle实践234

6.6神经网络模型的常用优化技巧238

6.6.1随机失活238

6.6.2批量标准化249

6.7章末小结260

●第7章PySparkML分布式机器学习262

7.1PySpark环境配置264

7.1.1使用Anaconda Navigator搭建和配置环境264

7.1.2使用conda命令搭建和配置环境265

7.1.3安装JRE267

7.2PySpark分布式数据结构268

7.2.1RDD269

7.2.2DataFrame271

7.3PySpark分布式特征工程273

7.3.1特征抽取273

7.3.2特征转换279

7.4PySparkML分布式机器学习模型284

7.5分布式机器学习模型的常用优化技巧292

7.5.1留一验证293

7.5.2K折交叉验证295

7.6章末小结297

第4部分实践篇

●第8章Kaggle竞赛实践301

8.1泰坦尼克号罹难乘客预测302

8.1.1数据分析303

8.1.2数据预处理305

8.1.3模型设计与寻优306

8.1.4提交测试307

8.2Ames房产价值评估308

8.2.1数据分析309

8.2.2数据预处理315

8.2.3模型设计与寻优316

8.2.4提交测试317

8.3推特短文本分类318

8.3.1数据分析320

8.3.2数据预处理321

8.3.3模型设计与寻优322

8.3.4提交测试323

8.4CIFAR100图像识别324

8.4.1数据分析326

8.4.2数据预处理327

8.4.3模型设计与寻优328

8.4.4提交测试331

8.5章末小结333

●第9章Git代码管理334

9.1Git本地环境搭建335

9.1.1Windows下Git工具的安装与配置335

9.1.2macOS下Git工具的安装与配置336

9.1.3Ubuntu下Git工具的安装与配置336

9.2Git远程仓库配置337

9.2.1GitHub介绍337

9.2.2GitHub远程仓库的创建与配置338

9.2.3Gitee介绍339

9.2.4Gitee远程仓库的创建与配置339

9.3Git基本指令340

9.3.1克隆仓库340

9.3.2提交修改341

9.3.3远程推送343

9.4Git分支管理343

9.4.1创建分支344

9.4.2分支合并345

9.4.3合并冲突346

9.4.4删除分支347

9.5贡献Git项目348

9.5.1Fork项目348

9.5.2本地克隆、修改与推送349

9.5.3发起拉取请求349

9.6章末小结351

●后记352

●第1章简介篇1

1.1机器学习综述1

1.1.1任务3

1.1.2经验5

1.1.3性能5

1.2Python编程库8

1.2.1为什么使用Python8

1.2.2Python机器学习的优势9

1.2.3NumPy & SciPy10

1.2.4Matplotlib11

1.2.5Scikitlearn11

1.2.6Pandas11

1.2.7Anaconda12

1.3Python环境配置12

1.3.1Windows系统环境12

1.3.2Mac OS 系统环境17

1.4Python编程基础18

1.4.1Python基本语法19

1.4.2Python 数据类型20

1.4.3Python 数据运算22

1.4.4Python 流程控制26

1.4.5Python 函数(模块)设计28

1.4.6Python 编程库(包)的导入29

1.4.7Python 基础综合实践30

1.5章末小结33●第2章基础篇34

2.1监督学习经典模型34

2.1.1分类学习35

2.1.2回归预测64

2.2无监督学习经典模型81

2.2.1数据聚类81

2.2.2特征降维91

2.3章末小结97

●第3章进阶篇98

3.1模型实用技巧98

3.1.1特征提升99

3.1.2模型正则化111

3.1.3模型检验121

3.1.4超参数搜索122

3.2流行库/模型实践129

3.2.1自然语言处理包(NLTK)131

3.2.2词向量(Word2Vec)技术133

3.2.3XGBoost模型138

3.2.4Tensorflow框架140

3.3章末小结152

●第4章实战篇153

4.1Kaggle平台简介153

4.2Titanic罹难乘客预测157

4.3IMDB影评得分估计165

4.4MNIST手写体数字图片识别174

4.5章末小结180

●后记181

●参考文献182