首页 > 图书中心 >图书详情
大数据分析与数据挖掘
作者:简祯富、许嘉裕
定价:49元
印次:1-3
ISBN:9787302424253
出版日期:2016.03.01
印刷日期:2017.07.25
随着移动通信和行动装置普及、物联网和网络发展,以及云端技术的不断进步,现今数据产生、搜集和储存方式比以往更为方便。数据挖掘与大数据分析可以从海量数据中,找到值得参考的样型或规则,转换成有价值的信息、洞察或知识,创造更多新价值。 本书主要介绍数据挖掘与大数据分析的理论方法与实践应用,并加入丰富的实务案例介绍,具体说明如何应用数据挖掘与大数据分析技术以解决真实问题,深入浅出地剖析从数据中掏金的秘诀。全书共分为13章,内容涵盖数据挖掘基本概念与数据准备、数据挖掘的方法与实证、数据挖掘的进阶运用;书中也提供R语言与编程实例辅以说明,使读者更能融会贯通地应用数据挖掘方法,进而提升大数据分析和数字决策能力。
more >1992年我到美国威斯康星大学麦迪逊分校(UWMadison)攻读决策科学与作业研究博士时,发现我在新竹“清华大学”念的概率、统计、实验设计和统计方法等课程的教科书作者竟然都是麦迪逊的教授,所以选择统计作为副修;另一方面,我又在麦迪逊的医疗系统研究分析中心(Center for Health Systems Research and Analysis,CHSRA)担任研究助理,参与由Gustafson教授领导的大型研究团队发展的“综合医疗促进支持系统”(Comprehensive Health Enhancement Support System,CHESS),计划的目的是借着提供信息(information)、转介服务(referral to service providers)、决策支持(decision support)和社会援助(social support)等方式,帮助面对疾病和健康危机的人(如癌症和艾滋病患者)及其亲友取得相关信息、寻求可利用的资源、分析决策,以及社群服务和互相扶持等。我的主要工作是分析系统所搜集的使用数据和用户填写的问卷调查数据等,并在每周研究团队的定期会议上进行汇报,通过各种可能的分析和数据探索,以证明CHESS的效益。因为我的指导教授当时只是团队中的助理教授,所以我特别卖力分析,生怕工作不保就没有奖学金了。有一天,研究团队的一位成员在会议后告诉我说,我做的工作好像“数据挖掘”(data mining),他认为数据挖掘的方法将来可能会超越统计,虽然当时我觉得怎么可能有一种最近才发展的方法,可以超越已有几百年根基的统计学,但也让我注意到数据挖掘这个研究领域。 1996年我回到新竹“清华大学”任教,即成立“决策分析研究室”(Decision Analysis Laboratory,DALab),和研究伙伴与学生们包括本书共同作者许嘉裕博士一起投入决策分析、数据挖掘和优化的研究和实践工作,并通过产学合作计划作研究,然而却苦无合适的教材训练学生,特别是结合实际案例的课本,因此就持续借着整理产学合作研究成果、撰写期刊论文和指导学生论文之机,准备撰写教科书的基础材料。数据挖掘和大数据分析是方法论,也是实证推导模式(empirically derived model),因此必须结合方法发展与实证研究以检验研究效度。决策分析研究室研究团队与台积电、旺宏、台达电、联发科、广达电脑、创意电子、晶元光电、采钰、关东鑫林、茂迪、普生、力晶、世界先进等公司建立双赢的产学合作机制,做到学术研究贡献能够接连获奖,而实际效益能够达到合作厂商产业化的要求,作为更深一层理论研究的基础;更有幸从2005年借调台积电三年,实际应用所发展的分析方法在企业营运中,领导研究室的学生们和工业工程处同仁们一起推动台积电“IE十大建设”并发展相关的分析技术和数字决策系统,提供数字化系统化之决策依据,而从中得到产业导师宝贵的指导和回馈,也累积实战的经验和心得;进而执行台湾“科技部”“IC产业同盟”(Semiconductor Technologies Empowerment Partners Consortium,STEP Consortium)暨深耕工业基础技术计划,并成立“清华台积电卓越制造中心”(NTHUTSMC Center for Manufacturing Excellence),把累积多年的实证及大数据分析技术,推广到半导体供应链上、下游和其他高科技产业,借此提升产业的决策分析和智能制造能力;并通过主办“清华IC学堂”“半导体大数据分析竞赛”及产学合作成果发表研讨会等活动,培养具备跨界创新、团队合作能力的“资料科学家”。因此,本书在编撰过程中一再修改更新,希望一方面能深入介绍数据挖掘与大数据分析的基础方法和工具,另一方面则通过跨领域的实际案例和范例程序,以具体培养结合理论与实务的决策科学家。 非常感谢新竹“清华大学”和元智大学的良好学术研究环境和科学园区的地利人和,使我们可以结合理论与实务,从产业大数据和具体问题的实证中发展适用的方法、检验所学,再进而导向更深一层的研究。随着问题的广度和复杂度以及合作伙伴的阶层和领域而不断成长,这一路走来,虽然整个研究团队一直秉持自强不息、行胜于言的精神努力提升,但也得力于产业先进和合作伙伴们的提携协助和计划执行过程中的指导,因此要感谢的人非常多,希望借着本书的出版能使更多读者从中得到启发和实际的帮助,以造福社会和产业,也算是间接回报所有关心和帮助我们的人。尽管本书经过长期的准备,但完稿阶段所花费的心力远远超过预期,特别感谢专任助理梁婉玲编辑汇总的工作和与出版社的联络,减少本书错误的可能,以及决策分析研究室同学们一起打拼完成各项研究计划,这也是本书各案例的论文均引用完整作者名单的原因;也感谢在“数据挖掘”课程教学中每位互动的学生,让我们得到教学相长和调整教材的回馈建议。本书自2014年在台湾出版以来,引发学术界和产业界的广泛回响,成为多所大学和各大企业的指定教材。感谢北京清华大学出版社理工分社张秋玲社长和冯昕主任的支持,将全书重新编辑改版,去芜存菁,并增添一章全新章节,使内容更加丰富完整。然而,本书疏漏之处在所难免,盼诸位领导和前辈,不吝赐教,以提升大数据分析和数字决策能力。 简祯富许嘉裕谨识 IC产业同盟,2015冬
more >