O’Reilly Media, Inc.介绍
O’Reilly Media 通过图书、杂志、在线服务、调查研究和会议等方式传播创新
知识。自
1978 年开始,O’Reilly一直都是前沿发展的见证者和推动者。超级极客
们正在开创着未来,而我们关注真正重要的技术趋势——通过放大那些“细微的信
号”来刺激社会对新科技的应用。作为技术社区中活跃的参与者,
O’Reilly的发
展充满了对创新的倡导、创造和发扬光大。
O’Reilly为软件开发人员带来革命性的“动物书”;创建第一个商业网站
(GNN);组织了影响深远的开放源代码峰会,以至于开源软件运动以此命名;创立
了
Make 杂志,从而成为
DIY革命的主要先锋;公司一如既往地通过多种形式缔
结信息与人的纽带。
O’Reilly的会议和峰会集聚了众多超级极客和高瞻远瞩的商
业领袖,共同描绘出开创新产业的革命性思想。作为技术人士获取信息的选择,
O’Reilly现在还将先锋专家的知识传递给普通的计算机用户。无论是通过书籍出
版、在线服务或者面授课程,每一项
O’Reilly的产品都反映了公司不可动摇的理
念——信息是激发创新的力量。
业界评论
“O’Reilly Radar 博客有口皆碑。”
——Wired
“O’Reilly凭借一系列
(真希望当初我也想到了
)非凡想法建立了数百万美元的
业务。”
——Business 2.0
“O’Reilly Conference是聚集关键思想领袖的绝对典范。”
——CRN
“一本
O’Reilly的书就代表一个有用、有前途、需要学习的主题。”
——Irish Times
“Tim是位特立独行的商人,他不光放眼于最长远、最广阔的视野并且切实
地按照
Yogi Berra 的建议去做了:‘如果你在路上遇到岔路口,走小路
(岔
路)。’回顾过去
Tim似乎每一次都选择了小路,而且有几次都是一闪即瞬的
机会,尽管大路也不错。”
——Linux Journal
前言
本书展现了我在高科技行业的各个公司中从事数据工作所获得的经验。它汇聚
了我所发现的许多最有用的概念和技术,包括我希望自己能够早点知道的主题
——
然而我没有。
我所学的专业是物理,但我也从事了多年的软件工程师工作。本书将反映出我
这种双重背景。一方面,本书是为程序员以及软件领域的其他人士而写:我假定你
和我一样,有能力通过自己动手编程来轻松自如地操纵数据。另一方面,我思考数
据的方式是由我的背景和教育决定的。作为一个物理学家,我不会只满足于描述数
据或者做黑盒式的预测:分析的目的总是为了深入理解我们所观察的数据是怎样产
生的。
传达这种理解的工具就是模型:对所研究的系统进行描述
(换句话说,不只是
对数据的描述!
),必要时进行简化但要保留相关的信息。一个模型可能很粗糙
(就
像一头球形的牛
),但如果它能够帮助我们更好地理解系统的工作原理,那么它就
是一个成功的模型。
(精确度可以在之后获得,如果确实需要的话。
)
我对模型和简化描述的强调并不具有普遍性:其他作者和从业人员可能持有不
同的看法。但是它们对于我的方法和观点来说是基本的。
这本书相当具有个人色彩。尽管我努力使之合理全面,但我所选择的主题都是
我认为在实践中相关和有用的—
—不管它们是否是“经典”。本书还包含其他数据分
析相关书中不涉及的主题。尽管它们既不新颖也非独创,但在数据分析这一特定背
景下通常并不使用或讨论它们——但我发现它们不可或缺。
在整本书中,我提供了大量明确而具体的建议、意见和评估。这些评述反映了
我的个人兴趣、经验和理解。我不敢说我的观点一定是正确的,请根据具体需要对
我所说的进行评估和取舍。在我看来,一个充分论证的明确立场比列出所有待选的
可能算法更有用——即使后来你决定不同意我的观点。价值并不存在于观点中,而
是存在于支持它的论据中。如果你的论据比我的好,或者仅仅只是更适合你,那么
我也认为自己已经达到了我的目的!
就我理解而言,数据分析不是一套固定的技术。它是一种生活方式,这种方式
的名字叫“好奇”。总是有新的东西等待你去发现,总有更多的东西需要你去学
习。本书并不是关于这个问题的定论,它只是此时的一个快照:我现在所了解和发
现的有用知识。
“只有当工作产出了更好的东西时,它的价值才能体现出来。”
——亚历山大·冯·洪堡写给查尔斯·达尔文的信,
1839年
9月
18日
开始前的提醒
更多的数据分析工作是由于过度复杂而非由于过于简单而失败的。
这也许会让你惊讶,但我的经历一次又一次地证明事实如此。作为一个顾问,
人们通常在原来的项目团队已经陷入困境的时候才联系我。问题极少
(如果有的话
)
是因为团队不具备所需的技能。相反,我常常发现他们试图做一些毫无必要的复杂
事情,然后挣扎于他们自己的构想和发明所造成的后果之中。
基于所看到的,我总结出下面两个特别危险的区域。
.
使用的是仅有一知半解的“统计”概念
(考虑到大多数统计学都相对费
解,这实际上包括所有的统计概念
)。
.
当简单而浅显的方法也可以同样甚至更好地解决问题时,偏偏使用复杂
(且昂贵)的黑盒解决方案。
我强烈建议你养成避免所有统计语言的习惯。保持简单并坚持运用你可以肯定
的东西。我们可以说“点的传播范围”,这完全没错,因为它的意思就是它所说
的:点的传播范围,并且毫无二义!一旦我们开始谈及“标准偏差”,这种清晰度
就消失了。我们仍在谈论分布的观测宽度吗?还是在讨论这个宽度的某个特定量
度?(标准偏差只是众多可用概念之一。
)我们是否已经对分布的性质做出一个隐含
的假设?
(标准偏差仅仅适用于某些特定条件,这些条件通常在实践中无法实现。
)
或者甚至我们是否混淆了假设成立时可能做出的预测与实际的数据?
(当某人谈及
“某事有
95%的可能”时,我们知道这属于后一种情况!
)
我还想提醒你,除非证明简单方法的不足,否则不要轻易抛弃它们。简单的解
决方案通常相当有效:更复杂的方法所能带来的边际效益常常十分微小
(可能与增
加的成本不成比例
)。更重要的是,使用简单方法犯错的几率小得多,也不会掩盖
明显的事实。
vi
前言
一个真实的故事:某公司正在跟踪不合格产品的数量随时间的变化情况。当
然,不合格产品的数量每天都不一样,他们想要寻找一种方式来获取预期不合格产
品的典型数量的估计值。他们
IT部门建议的解决方案竟然涉及运行神经网络的计
算集群!
(我并不是在胡编乱造。
)事实上,一行计算式
(涉及移动平均数或者单指
数平滑)就足够了。
在我看来,这种将数据分析项目复杂化的趋势的主要原因在于不安的心态:在
一个不熟悉的问题领域中感到不安,不确定应当如何前进。这种不安和不确定促使
人们希望引入“重型武器”:花哨的术语,重量级的机制,大型的项目。当然,事
实正好相反:“解决方案”的复杂性将掩盖原始问题,最后将一无所获。
并非所有的数据分析都很难。尽管有些时候,基础方法的确不够用,但这种情
况并不像你预料的那么多。在绝大多数情况下,好奇心和一定的常识足以满足
你的需要。
我试图传达的观念可以总结成如下几点:
..简单优于复杂
..便宜优于昂贵
..明晰优于晦涩
..目的比过程更重要
..洞见比精确更重要
..理解比技术更重要
..勤于思考少干活
尽管我认为右边的条目有时是必要的,但我尽可能地优先左边的条目。
我本着这样的精神在书中向您提供各种概念和技术。
本书使用的约定
本书印刷约定如下:
斜体:表示新名词、
URL和电子邮件地址
等宽体:表示语言和脚本元素
前言
vii
代码示例的使用
本书的目的是帮助你完成工作。通常情况下,可以在你的程序或文档中使用本
书中给出的代码。不必联系我们获得代码使用授权,除非你需要使用大量的代码。
例如,在写程序的时候引用几段代码不需要向我们申请许可。但以光盘方式销售或
重新发行
O’Reilly书中的示例的确需要获得许可。引用本书或引用本书中的示例
代码来回答问题也不需要申请许可。但是,如果要将本书中的大量范例代码加入你
的产品文档,则需要申请许可。
我们欣赏引用时注明出处的做法,但不强求。引用通常包括书名、作者、出版
社和
ISBN,例如“
Data Analysis with Open Source Tools, 1 Edition, Copyright .
2011 Philipp K. Janert. 978-0596802356”。
如果觉得使用示例代码的情况不属于前面列出的合理使用或许可范围,请通过电子
邮件联系我们,邮箱地址为
permissions@oreilly.com。
Safari Books Online
Safari Books Online是一个定制的数字图书馆,可以在此轻松搜索
7500多本
技术类、创新类的图书和视频,快速返回需要的结果。
订阅这个数字图书馆后,可以从我们的图书馆在线阅读任何一页内容,观看任
何一个视频。可以在手机或移动设备上读书。可以在图书印刷之前获取新书书目,
并且可以获取进展中的草稿并向作者提出反馈意见。可以复制和粘帖示例代码,组
织自己的收藏夹,下载样章,在关键章节加上书签,做笔记,打印书页,从而享受
到很多节约时间的特性。
O’Reilly Media已将本书英文原版上传到
Safari Books Online服务系统。在
http://my.safaribooksonline.com免费注册,即可访问完整的本书英文原版电子版以
及
O’Reilly与其他出版社的同类图书。
联系我们?
对于本书,如果有任何意见或疑问,请按照以下地址联系本书出版商:
美国:
O’Reilly Media, Inc.
1005 Gravenstein Highway North
Sebastopol, CA 95472
viii 前言
中国:
北京市西城区西直门南大街
2号成铭大厦
C座
807室(100035)
奥莱利技术咨询
(北京)有限公司
本书也有相关的网页,我们在上面列出了勘误表、范例以及其他一些信息。
网址如下:
http://www.oreilly.com/catalog/9780596516246(英文版)
http://www.oreilly.com.cn/book.php?bn=978-7-302-25758-5(中文版)
对本书做出评论或者询问技术问题,请发送
E-mail至:
bookquestions@oreilly.com
希望获得关于本书、会议、资源中心和
O’Reilly网络的更多信息,请访问:
http://www.oreilly.com
http://www.oreilly.com.cn
致谢
很高兴能在这个项目上与
O’Reilly合作。特别是,
O’Reilly以极大的宽容允许
我在原稿中罕见地包含大量数学材料所带来的技术挑战。
作为编辑,Mike Loukides从头到尾跟进这个项目。我很享受和他一起谈天说
地,我们无话不谈,我非常感谢他对原稿提出的意见
——无论以哪种方式。
在这里,我想感谢一些朋友对本书提供的帮助:
.
Elizabeth Robson,感谢他为我们建立联系;
.
Austin King,感谢他指出明显的问题;
.
Scott White,感谢他愉快地忍受我的各种问题;
.
Richard Kreckel,感谢他提出及时的建议。
一如往常地,特别感谢
Paul Schrader (德国,不来梅
)。
原稿受益于来自各个审阅者的反馈意见。
Michael E. Driscoll,Zachary Kessin
和
Austin King阅读了全部或部分手稿并提出了有价值的评论。
我很喜欢和
Joseph Adler,Joe Darcy,Hilary Mason,Stephen Weston,Scott White
以及
Brian Zimmer之间的私聊。他们都在特定的主题上慷慨地提供了专业的建议。
特别感谢
Richard Kreckel,他为原稿提供了极其详尽而颇有见地的反馈。
在本书的准备期间,华盛顿大学图书馆丰富的馆藏为我提供了极有价值的资源。
前言
ix
作者通常会感谢他们的妻子或丈夫的“耐心和支持”或者用其他词语来表达这
种感谢。没有真正经历写作过程的人没法完全领会这种情感有多么真实。在过去的
三年中,Angela忍受我连续不断的抱怨、沮丧和绝望
——穿插着偶尔迸发的兴奋和
豪情——所有这些都源于一个典型作家以自我为中心和热衷于自我的态度。她始终
都耐心地支持着我。现在,我应该感谢她了。
前言