首页 > 图书中心 >图书详情
MATLAB数据探索性分析(原书第2版)
作者:(美) 温迪·L.马丁内兹 (Wendy L. Martinez) (美) 安吉尔·R. 马丁内兹(Angel R. Martinez) (美) 杰弗瑞·L. 索
定价:79元
印次:1-3
ISBN:9787302474999
出版日期:2018.09.01
印刷日期:2019.09.27
本书系统介绍了基于MATLAB语言的探索性数据分析与实现方法。本书共分10章,从实际数据集与探索性数据分析的基本概念讲起,内容涉及数据模式的发现、线性与非线性降维方法、数据巡查方法、聚类分析,以及用于探索性数据分析的数据可视化方法。除了基本分析与实现方法,书中也给出了丰富的应用实例,并提供了大量免费的相关资源,全部实例代码都可以直接用于探索性数据分析。
more >第2版前言 在过去几年里,EDA领域的进步颇多,这本书也到了需要更新的时候了,尤其是在降维、聚类和可视化等方面,出现了很多新方法。 以下,我们列出了第2版中一些主要改进和增加的内容。 在线性降维这章增加了很多内容。新方法是非负矩阵分解和线性判别分析,也扩充了数据集本征维数的估计方法。 在第3章中,也描述了曲元分析这种非线性降维方法。曲元分析是作为自组织映射的一种改进方法提出的。 在数据巡查中加入了独立成分分析的内容。 几种新的聚类方法,包括非负矩阵分解、概率潜语义分析和谱聚类。 增加了关于平滑样条以及用于均匀间隔数据的快速样条方法。 在文中增加了几个可视化方法,包括用于二元数据的测距仪箱线图、带有边际直方图的散点图、双标图和一种叫作安德鲁图像的新方法。 文中很多方法可以通过图形用户界面(GUI)访问。这个免费的EDA GUI工具箱的详细信息列在附录E中。 与第1版类似,本书内容并未聚焦于方法的理论。确切地说,本书主要集中在EDA方法的运用。因此,本书并未纠缠于方法的实现和算法细节上。相反地,通过提供实例和应用,为学生和实践者提供了用于EDA的操作方法。 MATLAB的示例代码、工具箱、数据集和大部分图像的彩色版本均可下载。下载站点来自Carnegie Mellon StatLib,如下: http://lib.stat.cmu.edu 或者是本书网站,如下: http://pisigma.info 关于安装和变更信息,请参见readme文件。 关于MATLAB产品的信息,请联系: The MathWorks, Inc. 3 Apple Hill Drive Natick, MA, 017602098 USA Tel: 5086477000 Fax: 5086477001 Email: info@mathworks.com Web: www.mathworks.com 很多研究者写出了本书中所述方法的MATLAB代码并免费提供,对于他们的宝贵帮助,表示感谢。尤其是,作者感谢Michael Berry在非负矩阵分解方面的有益讨论,感谢Ata Kaban允许使用她的PLSI代码,也对Mia Hubert与Sabine Verboven授权使用他们的bagplot函数和非常耐心地与我们通信表示感谢。 感谢这套计算机科学和数据分析丛书的编辑们收录本书,感谢CRC出版社的David Grubbs、Bob Stern和Michele Dimont的帮助和耐心。一如既往地,感谢MathWorks公司的Naomi Fernandes和Tom Lane在MATLAB方面的特殊援助。 免责声明 (1) 随EDA工具箱提供的一些MATLAB函数由其他研究者编写,他们保留其著作权。在附录B和各自函数的帮助部分给出了参考文献。特别指出,EDA工具箱在GNU协议许可下提供: http://www.gnu.org/copyleft/gpl.html (2) 本书中表达的观点来自作者,并不代表美国国防部或者其分支机构的观点。 Wendy L.Martinez,Angel R. Martinez,Jeffrey L.Solka 第1版前言 我们的第一本书——《基于MATLAB的计算统计学手册》(Computational Statistics Handbook with MATLAB)[2002],其目的之一就是展示计算统计学的一些基本概念和方法,以及如何用MATLAB实现MATLAB和Handle Graphics是MathWorks公司的注册商标。。计算统计学的一个核心部分就是探索性数据分析(exploratory data analysis),或称EDA。因此,这本书可以看作是第一本书的补充,并有类似的目标——使得EDA技术为广大读者所用。 EDA属于统计学和数据分析,其思路是先探索数据,常采用描述性统计学、科学可视化、数据巡查、降维等方法。这种探索没有任何预设观点或者假设。相反,这种方法使用探索的结果来引导和展开后续的假设检验和建模等。它与数据挖掘领域紧密关联,本书讨论的很多EDA工具是知识发现和数据挖掘工具箱的一部分。 本书旨在服务于进行原始数据分析的广大读者,包括科学家、统计学家、数据挖掘者、工程师、计算机科学家、生物统计学家、社会科学家以及其他学科工作者,也希望本书可以用于大学高年级学生或者研究生课堂教学中。每章包含的练习题目使其适合作为EDA课程、数据挖掘、计算统计学、机器学习等方面的课本或者补充材料。我们鼓励读者仔细看一下练习,因为有时练习中会介绍一些新的概念。练习本质上是计算性的或者探索性的,所以往往没有唯一的答案。 至于本书所需的背景,假设读者有线性代数基础。比如,应该熟悉线性代数的名词、数组乘法、矩阵逆、行列式和数组转置等,也假设读者学习过概率与统计学课程。读者应该在这门课程里了解随机变量、概率分布和密度函数、基本的描述性度量和回归等。 与第一本书类似,本书并未纠结于方法的理论。确切地说,本书的重点在于EDA方法的运用。方法的实现是第二位的,但只要适宜,本书为学生们和实践者展示了方法实现的算法、过程和MATLAB代码。很多方法是复杂的,MATLAB的实现细节并不重要。在这些例子中,展示了如何使用函数和技巧。感兴趣的读者(或者程序员)可以查看M文件,获得更多信息。这样,喜欢使用其他编程语言的读者应该可以自行实现算法。 虽然本书不探究理论,但希望重申书中描述的方法都有其理论基础。因此,在各章最后,提供参考文献等资源,供那些想进一步了解理论信息的读者查阅。 MATLAB代码以EDA工具箱的形式随书提供。这包括函数、图形用户界面和书中使用的数据集。上述内容可以在以下网站下载: http://lib.stat.cmu.edu 关于安装和变更信息,请参见readme文件。练习中包含MATLAB命令的M文件也可以下载。 本书也作了免责声明,说明本书中的MATLAB代码并不是最有效的方案。在很多情况下,为了(代码)清晰易懂而牺牲了效率。请参看示例的M文件,感谢MathWorks公司的Tom Lane。 附录B对EDA工具箱做了非常详细的描述,也提供了可供下载的(免费的)其他站点信息。这里的一些工具箱和函数在本书中使用,另外的那些提供了参考信息。只要可能和适合,本书都会使用EDA工具箱的免费函数,使作者很容易学习示例和练习。 假设读者有MathWorks公司的统计工具箱(版本4或者更高版本)。在恰当的时候,本书会指出函数是来自MATLAB主程序包、统计工具箱或者EDA工具箱。EDA工具箱的开发主要是基于MATLAB 6.5版(版本4的统计工具箱),所以如果你有这些条件,代码就可以正常运行。然而,在本书写作时,有新版的MATLAB及其统计工具箱发布,所以也整合了这个版本提供的新功能。 感谢以下校稿人的宝贵帮助: Chris Fraley、David Johannsen、Catherine Loader、Tom Lane、David Marchette和Jeffrey Solka。他们的很多意见和建议让本书变得更好,本书的任何不足之处由作者承担责任。特别感谢Jeffrey Solka在有限混合方法编程方面的协助,感谢Richard Johnson允许使用他的数据可视化工具箱并更新函数。也感谢所有本书所涉及方法的研究者,他们编写了MATLAB代码并免费提供使用。感谢计算机科学和数据分析丛书的编辑们收录本书。非常感谢CRC出版社的Bob Stern、Rob Calver、Jessica Vakili和Andrea Demby的帮助和耐心。最后,感谢MathWorks公司的Naomi Fernandes和Tom Lane在MATLAB方面的特殊援助。 免责声明 (1) 随EDA工具箱提供的一些MATLAB函数由其他研究者编写,他们保留其著作权。在附录B和各自函数的帮助部分给出了参考文献。除非特别指出,EDA工具箱在GNU协议许可下提供: http://www.gnu.org/copyleft/gpl.html (2) 本书中表达的观点来自作者,并不代表美国国防部或者其分支机构的观点。 Wendy L. Martinez,Angel R.Martinez
more >