图书目录

目录

第1章数据分析基础

1.1业务理解

1.2数据理解

1.3数据质量问题与预处理

1.4数据分析常见陷阱

1.5数据分析方法的选择

1.5.1分类算法

1.5.2聚类算法

1.5.3关联分析

1.5.4回归分析

1.5.5深度学习

1.5.6统计方法

1.6数据分析结果的评价

1.6.1分类算法的评价

1.6.2聚类结果的评价

1.6.3关联分析的评价

1.6.4回归分析结果的评价

1.7数据分析团队的组建

1.7.1项目经理

1.7.2业务专家

1.7.3数据工程师

1.7.4数据建模人员

1.7.5可视化人员

1.7.6评估人员

1.8数据分析人才培养的难题

1.8.1数理要求高

1.8.2跨学科综合能力欠缺

1.8.3国内技术资料少

1.8.4实践机会少

思考题

第2章Anaconda的安装与使用

2.1Anaconda的下载与安装

2.2配置Python库

2.3创建自定义新环境

2.4集成开发环境的使用

2.5搭建GPU环境

思考题

第3章医疗保险稽核

3.1数据预处理

3.1.1特征选择

3.1.2数据清洗

3.1.3数据离散化

3.1.4特征值处理

3.1.5数据平衡

3.1.6样本权重系数设置

3.1.7数据转换

3.2医疗保险稽核建模和评估

3.3结果分析

思考题

第4章机器学习书籍市场分析

4.1数据获取

4.2数据预处理

4.3市场总体分析

4.4书籍畅销因素分析

4.4.1随机森林模型

4.4.2商品评论词频分析

4.4.3商品评论主题分析

4.4.4其他值得关注的问题

4.5Apriori关联分析

4.6机器学习书聚类分析

4.7给电商平台上架图书的建议

思考题

第5章预测淡水质量

5.1数据清洗处理

5.1.1缺失值的处理

5.1.2特征数值分布

5.1.3异常值检测

5.1.4相关性检验

5.1.5数据离散化

5.1.6标签编码

5.1.7采样平衡

5.2模型的训练

5.2.1模型训练与预测

5.2.2模型的优化

5.3模型评估

思考题

第6章弹幕情感分析

6.1数据收集

6.2数据预处理

6.2.1去除无效内容

6.2.2分词和词性标注

6.2.3去除停用词

6.2.4主题词提取

6.2.5去除低频词

6.2.6编码

6.2.7标注

6.2.8获取词向量

6.3情感分析

6.3.1基于SnowNLP库的情感分析方法

6.3.2基于机器学习的情感分析方法

思考题

第7章海底捞运营分析

7.1业务背景分析

7.2数据抓取

7.3数据预处理

7.4店铺经营分析

7.4.1影响海底捞运营的关键因素分析

7.4.2店铺选址分析

7.4.3菜品关联分析

7.4.4用户评论与评分分析

7.4.5顾客情感分析

思考题

第8章慢性肾脏病状态预测

8.1业务背景分析

8.2数据收集

8.3数据探索

8.3.1CKD_rate和CKD_stage分布

8.3.2医院

8.3.3性别

8.3.4相关遗传病史

8.3.5血指标

8.3.6eGFR

8.4数据预处理

8.4.1数据清洗

8.4.2数据编码

8.4.3数据离散化

8.4.4数据平衡

8.4.5特征重要性分析

8.5慢性肾脏病状态预测分析

8.5.1逻辑回归

8.5.2决策树

8.5.3随机森林

8.5.4XGBoost

8.5.5支持向量机

8.5.6神经网络

8.6参数调节

8.7模型评估

8.8慢性肾脏病聚类分析

8.9慢性肾脏病关联分析

8.10慢性肾脏病回归分析

思考题

第9章行车记录仪销量分析

9.1业务背景分析

9.2数据说明

9.3数据预处理

9.3.1数据清洗

9.3.2离散数据编码

9.3.3数据离散化

9.3.4特征重要性评估

9.3.5数据平衡

9.4行车记录仪销量分析

9.5行车记录仪聚类分析

9.6行车记录仪关联分析

9.7行车记录仪回归分析

思考题

第10章商务酒店竞争分析

10.1业务背景分析

10.2数据提取

10.3数据预处理

10.3.1数据初步筛选

10.3.2分词

10.3.3关键词提取

10.4数据分析

10.4.1客户情感分析

10.4.2结果分析

10.5不同酒店的竞争分析

10.5.1酒店评分比较

10.5.2客户吸引力对比

10.5.3不同酒店客户情感对比

思考题

第11章常见机器学习算法加速

11.1使用Intel OneAPI加速

11.1.1数据预处理

11.1.2数据集划分与建模预测

11.1.3模型评估

11.2不使用Intel OneAPI的方案

11.2.1数据集划分与建模预测

11.2.2模型评估

11.3加速与否的对比分析

思考题

第12章综合实训: 银行信用卡欺诈与拖欠行为分析

12.1用户信用等级影响因素

12.1.1客户信用卡申请数据预处理

12.1.2信用卡申请成功影响因素

12.1.3信用卡用户信用等级影响因素

12.2基于消费的信用等级影响因素

12.3信用卡欺诈判断模型

12.3.1基于Apriori算法的欺诈模型

12.3.2基于判别的欺诈模型

12.3.3基于分类算法的欺诈模型

12.4欺诈人口属性分析

12.4.1欺诈人口属性统计分析

12.4.2基于逻辑回归的欺诈人口属性分析

12.4.3逾期还款的客户特征

12.4.4基于决策树分析逾期客户特征

12.4.5基于回归分析逾期客户特征

12.4.6根据消费历史分析客户特征

12.4.7基于聚类分析客户特征

12.4.8基于客户细分的聚类分析

附录习题