图书推荐

内容组织
《数据科学实战入门 使用Python 和R》一书基于数据科学方法论进行内容的组织。数据科学方法是一种在科学框架体系内进行数据分析的阶段性、自适应和迭代式方法。
1. 问题理解阶段。首先,需要清晰地阐明项目目标;然后将这些目标转化为一种可以用数据科学解决的问题。
2. 数据准备阶段。数据清洗/准备阶段很可能是整个数据科学处理过程中最费力气的阶段。
● 相关内容参见第3 章:“数据准备”。
3. 探索性数据分析阶段。在此阶段通过图形化探索方法获得对数据的初步认识。
● 相关内容参见第4 章:“探索性数据分析”。
4. 设置阶段。建立数据模型的性能基准,如果需要,可以对数据进行分割和平衡处理。
● 相关内容详见第5 章:“为建模数据做准备”。
5. 建模阶段。建模阶段是数据科学研究过程的核心,在此阶段应用各种先进的算法来发现隐藏在数据中的一些确实具有价值的关系。
● 相关内容参见第6 章以及第8~14 章。
6. 评估阶段。确定设计的模型是否有价值,在此阶段需要从一系列可选的模型中选择性能更佳的模型。
● 相关内容参见第7 章:“模型评估”。
7. 部署应用阶段。在此阶段需要与管理层协作来调整模型以适应实际部署。