首页 > 图书中心 >图书详情

基于知识图谱的学科主题演化分析与预测

荣获国家自科、博后面上等项目资助;学科领域资深教授、长江学者联名推荐;知识关联下的科学规律发现和未来预测;开启大数据驱动下的大知识时代之门

作者:霍朝光
定价:98
印次:1-4
ISBN:9787302595236
出版日期:2021.12.01
印刷日期:2023.01.10

本研究在梳理知识演化、知识生命周期等知识进化理论和思想的基础上,介绍了引文网络、Meta-path、PageRank等网络分析理论和方法,阐述了Word2vec、Doc2vec、Node2vec等深度表示学习模型以及ARIMA、SVM等时间序列模型,以期为科学主题的演化和热度预测提供理论基础和方法支撑;以生物医学与生命科学领域PubMed Central数据全集为例,基于知识图谱技术构建了一种面向计量相关研究和应用的垂直领域知识图谱——计量知识图谱;创新计量指标,计算计量实体的热度,用热度值反应主题所处的演化状态;采用一系列深度学习等方法挖掘科学主题在计量知识图谱中的特征,分析科学主题的演化规律;基于SVM、ARIMA、LSTM等一系列时间序列模型构建学科主题预测模型,优化、验证模型,并进行应用研究。读者对象:高等学校信息科学、情报学、信息管理等相关专业的学生,以及从事科技情报、知识管理、知识服务的实际工作者

more >

前言 自20世纪50年代以来,科研产出与日俱增,新兴学科层出不穷,学科之间的体系结构愈发复杂。大数据时代,如何基于数据驱动、知识驱动双动力,创新科学预测模式,已经成为情报学、信息科学、管理学等研究的重要命题之一。尤其是如何从海量文献数据中识别学科主题的演化模式和演化规律,并用以指导科学知识发现,预见学科之美,更是情报学研究的重中之重。 学科主题演化是指以词语为表征的学科主题在时间维度上的发展变化和新陈代谢过程,不仅包括学科主题随着时间的发展自身状态的演化,还包括学科主题同其他实体之间关系的演化,即学科主题状态演化和学科主题关系演化。其中学科主题状态演化强调学科主题经历的产生、发展、成熟、衰退、灭亡等生命过程,代表着新旧知识的更替;学科主题关系演化强调学科主题之间扩散、引进、迁徙、合并、分裂、收缩等关系变化,代表了知识的交叉融合。 学科主题演化分析强调对学科主题历史演化路径和演化模式的解析,学科主题预测强调对学科主题未来变化情况和变化趋势的预测,基于这两个研究视角,本书构建了计量知识图谱,在现有大型知识库的基础上融合了文献大数据,通过知识关联、数据关联的形式,提升对学科主题演化规律的解析和热度的预测,主要贡献在于: 1. 在同名作者消歧方面,本书抓住生物医学与生命科学领域作者研究比较集中的特点,提出采用Doc2vec深度表示学习方法对作者的名字、文章题目、关键词、摘要、引文、合作者、邮箱、国家、位置、职称以及机构等附属信息进行特征学习,根据作者姓名出现的频次将姓名分为9个档次,在特征学习基础上利用支持向量机方法分别进行消歧,有效规避了利用作者邮箱、作者机构进行姓名消歧的弊端和不足,同时该方法通过简洁有效的特征学习进行机器学习模型训练,提升了消歧的效率。 2. 构建了动态计量知识图谱。本书在梳理知识地图、概念地图、科学知识图谱、知识网络、多模知识网络等概念的基础上,明确计量知识图谱是一种基于知识图谱技术的面向计量相关研究和应用的垂直领域知识图谱。以生物医学与生命科学领域PMC的全部数据为例,解析MeSH知识库,完成计量相关实体的抽取、消歧等,利用lucene信息检索技术将计量实体与MeSH关联在一起,构建了新型的包含34个时间片的动态计量知识图谱。从理论上拓展了以往的科学知识图谱研究,将文献计量研究从一模网络、二模网络、异构网络等拓展到知识图谱层面,其丰富的实体和复杂的关系更完整、更有效地表征了计量研究中存在的真实复杂情况,进一步丰富了领域知识图谱。通过借鉴信息检索技术来构建实体关联,能够有效提升知识图谱的构建效率,促进计量领域相关知识图谱的构建,促进计量分析。 3. 在动态计量知识图谱基础上,整合学科主题的网络结构特征和内容特征进行演化分析。本书在具有34个时间片的动态计量知识图谱基础上,面向主题分别利用Node2vec和Doc2vec对计量知识图谱中主题节点在每个时间片上的网络结构和文本内容进行深度表示学习,有效整合了主题在计量知识图谱中的网络结构特征和内容特征,增强了主题之间的语义关联和结构关联,促进主题挖掘中对语义信息的利用,同时在复杂的知识图谱背景中,对稀疏多维的主题节点进行表示并分析,能够更加有效地挖掘包含语义和结构关系的主题演化动态,以及主题集群之间的交叉融合情况。 4. 借助动态计量知识图谱挖掘主题演化过程的相关特征,辅助对学科主题热度的预测。本书在对动态计量知识图谱深度表示学习的基础上,借助Max pooling、Min pooling、Sum pooling等池化方法,挖掘学科主题的演化特征,并结合主题自身的演化时间序列,利用SVM、ARIMA等对学科主题热度进行预测,检验了动态计量知识图谱相对于静态计量知识图谱对主题热度预测的优势,以及特征对主题热度预测的作用。 本书系在我的博士论文基础上完成的,感谢我的导师武汉大学马费成教授的指导,马老师在我的科研道路上循序善诱、解疑答惑、一丝不苟、精益求精、草木恩泽,细心指导我的科研发展和人生规划,感谢我的人生导师马老师。感谢印第安纳大学布鲁明顿校区(Indiana University Bloomington)刘晓钟教授在访学期间的支持和对本研究的大力指导,感谢陆伟教授、孙建军教授、夏立新教授、查先进教授等给予本研究的大量修改建议。感谢南京大学张斌副教授、武汉大学董克副教授等在前期研究中给予的宝贵建议,感谢司湘云博士、戴怡清硕士在作者姓名消歧时做出的标注等工作。在课题研究过程,尤其是本书成稿过程中,参考了许多学者的论著,他们的成果为本书提供了丰富的素材和理论支撑,书中都以参考文献的形式进行了标注,如有不慎遗漏,亦表示特别的歉意。 本成果受到中国人民大学2021年度“中央高校建设世界一流大学(学科)和特色发展引导专项资金”支持。 霍朝光2021年9月于中国人民大学

more >
扫描二维码
下载APP了解更多
图书分类全部图书
more >
  • 霍朝光,武汉大学与Indiana University Bloomington联合培养博士,中国人民大学“杰出学者支持计划”青年学者,中国人民大学信息资源管理学院讲师,主持国家自然科学基金项目“基于广度学习的学科主题演化预测研究”、中国博士后面上项目“基于动态知识图谱的学科主题演化预测研究”,参与国家自科重大研究计划、国际合作、地区合作项目3项;发表国际SSCI核心以及国内**CSSCI论文30余篇;主要研究方向: 科学学预测、知识图谱、文本挖掘、图挖掘等。
  • 学科领域资深教授、长江学者联名推荐;知识关联下的科学规律发现和未来预测;开启大数据驱动下的大知识时代之门
more >
  • 目录

    第一章绪论1

    1.1研究背景与意义1

    1.1.1研究背景1

    1.1.2研究意义5

    1.2国内外研究现状6

    1.2.1主题模型研究6

    1.2.2主题演化研究7

    1.2.3主题预测研究9

    1.2.4知识图谱11

    1.2.5表示学习13

    1.2.6现状述评19

    1.3研究内容与方法20

    1.3.1目标与内容20

    1.3.2研究方法26

    1.3.3研究难点28

    1.4研究贡献29

    第二章理论基础31

    2.1知识进化论31

    2.1.1知识演化32

    2.1.2知识生命周期33

    2.2网络分析理论与方法34

    2.2.1引文网络34

    2.2.2Metapath35

    2.2.3PageRank38

    2.3深度表示学习模型40

    2.3.1Word2vec模型41

    2.3.2Doc2vec模型44

    2.3.3Node2vec模型46

    2.4时间序列模型49

    2.4.1ARIMA模型49

    2.4.2支持向量机模型50

    第三章知识图谱构建53

    3.1计量知识图谱内涵53

    3.1.1计量知识图谱53

    3.1.2动态计量知识图谱57

    3.2计量实体与关系58

    3.2.1数据下载58

    3.2.2计量实体抽取59

    3.2.3计量实体消歧62

    3.2.4计量实体关系75

    3.3MeSH中的实体与关系77

    3.3.1MeSH知识库77

    3.3.2MeSH解析78

    3.4计量实体与MeSH实体关联84

    3.4.1全文检索Lucene84

    3.4.2基于pylucene的计量实体与MeSH实体关联85

    ...

精彩书评more >

标题

评论

版权所有(C)2023 清华大学出版社有限公司 京ICP备10035462号 京公网安备11010802042911号

联系我们 | 网站地图 | 法律声明 | 友情链接 | 盗版举报 | 人才招聘