首页 > 图书中心 >图书详情

大数据分析与数据挖掘

作者:简祯富、许嘉裕
定价:49
印次:1-3
ISBN:9787302424253
出版日期:2016.03.01
印刷日期:2017.07.25

随着移动通信和行动装置普及、物联网和网络发展,以及云端技术的不断进步,现今数据产生、搜集和储存方式比以往更为方便。数据挖掘与大数据分析可以从海量数据中,找到值得参考的样型或规则,转换成有价值的信息、洞察或知识,创造更多新价值。 本书主要介绍数据挖掘与大数据分析的理论方法与实践应用,并加入丰富的实务案例介绍,具体说明如何应用数据挖掘与大数据分析技术以解决真实问题,深入浅出地剖析从数据中掏金的秘诀。全书共分为13章,内容涵盖数据挖掘基本概念与数据准备、数据挖掘的方法与实证、数据挖掘的进阶运用;书中也提供R语言与编程实例辅以说明,使读者更能融会贯通地应用数据挖掘方法,进而提升大数据分析和数字决策能力。

more >

1992年我到美国威斯康星大学麦迪逊分校(UWMadison)攻读决策科学与作业研究博士时,发现我在新竹“清华大学”念的概率、统计、实验设计和统计方法等课程的教科书作者竟然都是麦迪逊的教授,所以选择统计作为副修;另一方面,我又在麦迪逊的医疗系统研究分析中心(Center for Health Systems Research and Analysis,CHSRA)担任研究助理,参与由Gustafson教授领导的大型研究团队发展的“综合医疗促进支持系统”(Comprehensive Health Enhancement Support System,CHESS),计划的目的是借着提供信息(information)、转介服务(referral to service providers)、决策支持(decision support)和社会援助(social support)等方式,帮助面对疾病和健康危机的人(如癌症和艾滋病患者)及其亲友取得相关信息、寻求可利用的资源、分析决策,以及社群服务和互相扶持等。我的主要工作是分析系统所搜集的使用数据和用户填写的问卷调查数据等,并在每周研究团队的定期会议上进行汇报,通过各种可能的分析和数据探索,以证明CHESS的效益。因为我的指导教授当时只是团队中的助理教授,所以我特别卖力分析,生怕工作不保就没有奖学金了。有一天,研究团队的一位成员在会议后告诉我说,我做的工作好像“数据挖掘”(data mining),他认为数据挖掘的方法将来可能会超越统计,虽然当时我觉得怎么可能有一种最近才发展的方法,可以超越已有几百年根基的统计学,但也让我注意到数据挖掘这个研究领域。 1996年我回到新竹“清华大学”任教,即成立“决策分析研究室”(Decision Analysis Laboratory,DALab),和研究伙伴与学生们包括本书共同作者许嘉裕博士一起投入决策分析、数据挖掘和优化的研究和实践工作,并通过产学合作计划作研究,然而却苦无合适的教材训练学生,特别是结合实际案例的课本,因此就持续借着整理产学合作研究成果、撰写期刊论文和指导学生论文之机,准备撰写教科书的基础材料。数据挖掘和大数据分析是方法论,也是实证推导模式(empirically derived model),因此必须结合方法发展与实证研究以检验研究效度。决策分析研究室研究团队与台积电、旺宏、台达电、联发科、广达电脑、创意电子、晶元光电、采钰、关东鑫林、茂迪、普生、力晶、世界先进等公司建立双赢的产学合作机制,做到学术研究贡献能够接连获奖,而实际效益能够达到合作厂商产业化的要求,作为更深一层理论研究的基础;更有幸从2005年借调台积电三年,实际应用所发展的分析方法在企业营运中,领导研究室的学生们和工业工程处同仁们一起推动台积电“IE十大建设”并发展相关的分析技术和数字决策系统,提供数字化系统化之决策依据,而从中得到产业导师宝贵的指导和回馈,也累积实战的经验和心得;进而执行台湾“科技部”“IC产业同盟”(Semiconductor Technologies Empowerment Partners Consortium,STEP Consortium)暨深耕工业基础技术计划,并成立“清华台积电卓越制造中心”(NTHUTSMC Center for Manufacturing Excellence),把累积多年的实证及大数据分析技术,推广到半导体供应链上、下游和其他高科技产业,借此提升产业的决策分析和智能制造能力;并通过主办“清华IC学堂”“半导体大数据分析竞赛”及产学合作成果发表研讨会等活动,培养具备跨界创新、团队合作能力的“资料科学家”。因此,本书在编撰过程中一再修改更新,希望一方面能深入介绍数据挖掘与大数据分析的基础方法和工具,另一方面则通过跨领域的实际案例和范例程序,以具体培养结合理论与实务的决策科学家。 非常感谢新竹“清华大学”和元智大学的良好学术研究环境和科学园区的地利人和,使我们可以结合理论与实务,从产业大数据和具体问题的实证中发展适用的方法、检验所学,再进而导向更深一层的研究。随着问题的广度和复杂度以及合作伙伴的阶层和领域而不断成长,这一路走来,虽然整个研究团队一直秉持自强不息、行胜于言的精神努力提升,但也得力于产业先进和合作伙伴们的提携协助和计划执行过程中的指导,因此要感谢的人非常多,希望借着本书的出版能使更多读者从中得到启发和实际的帮助,以造福社会和产业,也算是间接回报所有关心和帮助我们的人。尽管本书经过长期的准备,但完稿阶段所花费的心力远远超过预期,特别感谢专任助理梁婉玲编辑汇总的工作和与出版社的联络,减少本书错误的可能,以及决策分析研究室同学们一起打拼完成各项研究计划,这也是本书各案例的论文均引用完整作者名单的原因;也感谢在“数据挖掘”课程教学中每位互动的学生,让我们得到教学相长和调整教材的回馈建议。本书自2014年在台湾出版以来,引发学术界和产业界的广泛回响,成为多所大学和各大企业的指定教材。感谢北京清华大学出版社理工分社张秋玲社长和冯昕主任的支持,将全书重新编辑改版,去芜存菁,并增添一章全新章节,使内容更加丰富完整。然而,本书疏漏之处在所难免,盼诸位领导和前辈,不吝赐教,以提升大数据分析和数字决策能力。 简祯富许嘉裕谨识 IC产业同盟,2015冬

more >
扫描二维码
下载APP了解更多
图书分类全部图书
more >
  • 作者简介

    简祯富  Chen-Fu Chien, Ph.D.

     

    现职

    台湾新竹“清华大学”清华讲座教授:工业工程与工程管理学系/EMBA/MBA

    台湾“科技部”“IC产业同盟”计划暨“清华-台积电卓越制造中心”主持人

     

    学历与训练

    哈佛大学商学院PCMPCL结业

    威斯康星大学麦迪逊分校决策科学与作业研究博士

    新竹“清华大学”工业工程系暨电机工程系双学位(斐陶斐荣誉会员)

     

    经历与荣誉

    新竹“清华大学”主任秘书、台湾科技计划审议委员、台湾质量奖审查委员、“中华卓越经营决策学会”理事长、“国科会”固本精进计划推动办公室总主持人、“竹科2.0”规划计划主持人、新竹“清华大学”副研发长兼首任产学合作执行长、台积电工业工程处副处长(台积电第一位借调的国内学者)、加州大学伯克利分校傅尔布莱特学者、剑桥大学访问教授、日本早稻田大学青年访问学者奖等。发表超过145篇学术论文,取得12项半导体制造国际发明专利,著有《半导体制造技术与管理》及《决策分析与管理》等书;主编《创业清华》《固本科园台湾精进》《产业工程与管理个案》及《清华百人会》等书及《竹科30》有声书。并撰写台积电、联发科、创意电子等哈佛管理个案。荣获“行政院”“国家质量奖”、“国科会”杰出研究奖、优秀年轻学者研究计划、“经济部”大学产业经济贡献奖、“教育部”产学合作研究奖、科技管理学会院士、吕凤章奖章、新竹“清华大学”第一届杰出产学合作奖、杰出工程教授、工程论文奖、工业工程奖章、工业工程论文奖及2011 IEEE TASE Best Paper Award等学术殊荣,也是“国科会”“学以致用”的九个标杆之一。

     

    研究领域

    决策分析、大数据分析、半导体制造、制造策略

     

    延伸阅读

    Ÿ   CIO IT经理人月刊(2015.08):大数据改善良率带动产业升级

    Ÿ   Spotlight中小企业知识期刊-第六期(2015.07):「台湾生产力4.0」推动产业再进阶 (p.30-31)

    Ÿ   哈佛商业评论(2015.06): 物联网带来的危机与转机

    Ÿ   远见杂志(2015.03): 台积电大数据幕后推手,原来就是他!

    Ÿ   今周刊-935期(2014.11): 良率赢对手 台积电的大数据竞争力

    Ÿ   iTHome计算机报(2014.11):半导体大数据应用的下一步:智慧工厂

     

    许嘉裕 Chia-Yu Hsu, Ph.D.

    现职

    元智大学信息管理学系 副教授

    台湾科技部「IC产业同盟」计划 共同主持人

     

    学历

    新竹清华大学工业工程与工程管理学系博士、硕士

    成功大学统计学系学士

     

    经历与研究领域

    曾任元智大学信息管理学系助理教授、剑桥大学制造研究所访问学者、新竹“清华大学”工业工程与工程管理学系博士后研究员、台积电制造技术中心工程师。研究领域包含数据挖掘、大数据分析、智能制造、统计决策、样型识别,并针对产业实际问题发展实证模式,包含“半导体制造智能与良率提升”“事故诊断与故障侦测分析”“晶圆图样型辨识与比对”“先进制程控制与先进设备控制”等。执行的研究计划包含台积电、旺宏、创意电子等高科技厂商委托产学合作研究计划及“科技部”、“新竹科学园区管理局”委托计划等。在数据挖掘与智能制造领域的国际期刊上发表16篇论文,取得3项半导体制造发明专利。荣获温世仁服务科学新苗奖、元智大学青年学者研究奖等学术荣誉。

  • 理论服务实际,案例源于真实,手把手教你从数据中掏金的秘诀。

more >
  • 第1篇大数据分析与数据挖掘导论

    第1章大数据分析与数据挖掘概论3

    1.1前言3

    1.2大数据分析的应用6

    1.3数据挖掘与数字决策8

    1.4数据挖掘和大数据分析架构与步骤9

    1.4.1问题定义与架构10

    1.4.2数据准备11

    1.4.3建立挖掘模式11

    1.4.4结果解释与评估12

    1.5数据挖掘的问题类型13

    1.5.1分类13

    1.5.2预测13

    1.5.3聚类14

    1.5.4关联规则14

    1.6数据挖掘模式14

    1.7结论15

    1.8本书架构17

    问题与讨论17

    第2章数据与数据准备19

    2.1数据取得20

    2.2大数据分析的基础: Hadoop22

    2.2.1Hadoop架构22

    2.2.2Hadoop分布式文件系统23

    2.2.3MapReduce24

    2.3数据类型25

    2.4数据尺度26

    2.5数据检查28

    2.6数据探索与可视化29

    2.7数据整合与清理32

    2.8数据转换36

    2.8.1数据数值转换36

    2.8.2数据属性转换37

    2.9数据归约38

    2.9.1数据维度归约38

    2.9.2数据数值归约44

    2.10数据分割46

    2.11应用实例——半导体厂制造技术员人力资源管理质量提升47

    2.11.1案例背景47

    2.11.2数据准备47

    2.12结论50

    问题与讨论51

    第2篇数据挖掘方法与实证

    第3章关联规则55

    3.1关联规则的定义与说明55

    3.2关联规则的衡量指针57

    3.3关联规则的类型59

    3.4关联规则算法60

    3.4.1Apriori算法62 ...

  • 大数据分析是一门需要理论与实务紧密依存的新显学,其应用层面广泛,近年来各产业均积极投入巨量资料的分析和研究,为台湾经济发展注入一股活水。半导体制程中,每秒钟产生上百万笔的产品检测和生产参数值,台积电长期致力于半导体大数据分析,在提升良率、改善流程、降低成本与缩短先进制程的研发周期等方面均成效显著。台积电也持续与学术界密切交流、分享成功经验,透过产学合作实现产学互惠,使学界理论和业界应用与时俱进。大数据分析与数据挖掘技术,将是台湾产业革新的推手,本书不仅是理论指南,更是实战手册,为企业搭建一座数据与决策之间的桥梁,协助企业经营与产业环境的永续发展。

          王建光 先生(台积电 副总经理)

     

    知识经济的时代,巨量数据必须经过分析提炼才能产出潜在有用的信息,进而成为知识以协助相关决策,成为现代企业和国家决胜之关键软实力。人力资源的数据也可以透过大数据分析,以提升企业人力资本效益和人力资源管理决策质量。简教授及其研究团队将长期累积的研发成果整理成书,并结合实际案例和参考程序,内容充实完整,可作为各产业经理人进修之重要参考,并与1111人力银行合作建立“大数据人才专区”,以培育亟需的大数据分析人才。

    林文雄 先生(1111人力银行 总裁)

                                                                                                   

    随着信息科技的飞快进步,企业中每个业务或生产活动所产生的数据量也随着大幅增加。如何善加利用这些存在于企业内、外部的巨量数据,决定了企业对未来的决策速度和竞争优势,也是企业必须面临的新挑战。本书不但具有深厚且严谨的理论基础,还详述了数据挖掘流程和各种分析工具,更提供实务上的应用经验,是想要了解巨量数据不可或缺的参考书籍。

    李秉杰 先生(晶元光电 董事长兼策略长)

     

    在信息爆炸的时代,从巨量数据中找到有价值的信息成为企业重要的课题,如同在海底寻找宝藏一般,在充斥着洋流、生态变化的环境下寻找未知的宝藏,搜寻的过程充满着未知,并不能永远按照原来的构想去做,而是在充满变化的环境中略有耳闻、心向往之地摸索、寻找有价值的宝藏。简教授及其研究团队和台达电子合作,协助企业在大数据中理出头绪、整理出脉络,才能依循着脉络获得智慧,这是门值得学习的科学,也在企业运作中发挥实质的成效。

        郑平 先生(台达电子 执行长)

     

    工程数据分析和数据挖掘是半导体产业提升良率的重要工具,也是旺宏电子的核心能力之一,随着晶圆厂的高度自动化和奈米先进制程技术的导入,大数据分析的挑战更胜以往。简教授及其研究团队和旺宏电子有长期的产学合作研究,其精心编着的《大数据分析与数据挖掘》提供完整的分析架构和工具,并结合各种产业案例和心得,对于个人和组织全面提升大数据分析能力、挖掘蕴藏在数据矿山中的宝藏有非常大的帮助,亦可协助台湾企业转型面向数字决策时代。

    卢志远 先生(欣铨科技董事长、旺宏电子总经理)

     

    当今企业无不竞逐巨量数据的无限商机以建立领先群雄的竞争优势,如何驾驭巨量数据的应用以撷取其中可实行的新商业契机、同时结合决策者经验与能力是企业致胜的关键。本书精辟的数据挖掘理论、工具与大数据分析等方法的阐述,有效缩短使用大数据分析应用的学习曲线、提供营运者有决策价值之关键信息,也启发读者从不同角度洞悉巨量数据讯息的价值,以激发出企业界新创思维的魅力。

           蔡文弘 先生(广达电脑 执行副总经理)

  • 数据挖掘的产生与信息科技的演进息息相关(Han et al., 2011)。由1960年代的源文件搜集到发展成为数据库系统(database system),至19701980年代初期进展到关系数据库(relational database),数据开始以关系型数据表的方式储存,提供用户快速存取、搜索,以至于如在线实时事务处理(on-line transformation processing, OLTP)技术的发展。自1980年代中期开始,数据库系统的研究开始蓬勃发展,连带着不同性质数据库等应用导向数据库技术逐渐成熟,另一方面,全球信息网络的出现也促使计算机科学与信息工业的快速发展。此外,硬件技术的急速成长也提供低廉的计算机,推动数据库进阶发展与数据仓储(data warehouse),包括数据清理、数据整合与在线实时分析处理,OLAP主要是由不同汇整角度提供数据间的统计信息,作为决策者之关联性参考,例如提供零售业者不同区域间不同品牌的消费金额差异,但若要进一步分析顾客消费行为,则需要更复杂的分析工具,如数据挖掘技术。现今,大量数据不仅改变企业经营模式,也刺激企业决策者开始思考如何有效运用数据挖掘分析技术,从各种数据中淬炼出黄金,以掌握企业竞争优势。未来,数据将成为最宝贵的资产。以网络业者为例,若能从数以万计的消费数据纪录中找到现今尚未有人发现的关键消费行为模式与可能的产品应用趋势,将可挖掘出许多未开发的潜在商机,取得市场先机。


精彩书评more >

标题

评论

版权所有(C)2019 清华大学出版社有限公司 京ICP备10035462号 京公网安备11010802013248号

联系我们 | 网站地图 | 法律声明 | 友情链接 | 盗版举报 | 人才招聘