首页 > 图书中心 >图书详情
文本情感分析
作者:林政、靳小龙
定价:79元
印次:1-3
ISBN:9787302534082
出版日期:2019.11.01
印刷日期:2022.01.24
本书全面介绍了文本情感分析领域的主要研究问题,包括情感词典自动构建,主客观分类,篇章、句子、属性等不同层级的情感分类,跨领域情感分类,跨语言情感分类,情绪分析理论和情绪分类,以及结合情感的文本摘要与观点检索研究等。同时,还对情感分析与观点挖掘研究领域的公开资源进行了整理与归纳。本书重在对情感分析和观点挖掘研究的主流方法和前沿进展进行概括、比较和分析,适用于该领域高校科研院所的研究参考,也可以作为企业和政府对该领域的实际应用的指导。
more >前言 文本情感分析旨在从文本中分析并挖掘作者的态度、立场、观点和看法,是自然语言处理、人工智能与认知科学等领域的重要研究方向之一。通过计算机自动进行文本情感分析的研究始于20世纪90年代,早期研究以文本情感分类为主,即把文本按照主观倾向性分成正面、负面和中性三类,其中正面类别是指文本体现出支持的、积极的、喜欢的态度和立场; 负面类别是指文本体现出反对的、消极的、厌恶的态度和立场; 中性类别是指没有偏向的态度和立场。情感分类是情感分析中开展最为广泛的一项研究,很多时候情感分类被等同于情感分析。但严格说来,情感分析的研究范畴更广,涵盖观点持有者、评价对象与情感词等情感单元的抽取,以及主客观分类、情感倾向分类、情绪分类、观点摘要、观点检索、比较观点挖掘和情感演化分析等多项不同的研究内容。 随着互联网的飞速发展,特别是Web 2.0时代的到来,网络信息传播已由单向信息发布发展为动态信息交互,用户不再仅仅是网络内容的阅读者,更成为网络内容的生产者。论坛、微博、微信、电商评论等网络交流平台不断涌现,人们越来越习惯于在网络上发表主观性的言论,以表达自己对所关注事件和政策或所购买商品与服务等的观点和看法。网络上大量用户所生成的富含情感信息的数据为情感分析提供了新的机遇。但同时,这类数据的许多独有特质也为情感分析带来新的问题。比如: 微博字符长度受限,所以内容表述非常简洁,但存在数据稀疏的问题; 用户生成数据中蕴含着大量的俚语和网络流行语等未登录词,以及哈希标签(hashtag)和表情符号(emoj)等特殊标记,而且常常存在拼写错误,这都为分析工作带来了困难。此外,社交网络中还存在着大量的关注、点赞、转发等社交关系数据,这些社交关系数据可以为情感分析提供不同视角的必要补充。由于上述原因,传统面向规范长文本的情感分析方法面对复杂的网络用户生成数据时,效果差强人意。因此,针对特定场景的数据需要设计专用的方法,新技术要与新应用适配。总而言之,在Web 2.0时代,用户生成数据的积累为情感分析带来了新的机遇、新的挑战和新的研究问题。 以情感分类为例,传统方法主要分为两类,一类是基于知识库的方法; 另一类是基于机器学习的方法。基于知识库的方法是指借助WordNet、HowNet、同义词词典和反义词词典等资源构建情感词典,进而用情感词典指导情感分类; 基于机器学习的方法是指在有情感类别标签的情感语料上,通过朴素贝叶斯、支持向量机、最大熵等分类模型,训练得到情感分类器,然后将分类器应用于未标注数据进行情感类别预测。近几年,深度学习迅猛发展,在语音识别、图像识别、机器翻译等应用领域取得了卓著成绩,也为情感分析提供了新的思路。目前已有很多将卷积神经网络(Convolutional Neural Network,CNN)、递归神经网络(Recursive Neural Network, RNN)和长短期记忆网络(LongShort Term Memory,LSTM)等深度学习模型应用于文本情感分类的工作,研究结果表明神经网络方法的性能往往优于之前的主流方法。因此,基于深度学习的方法对情感分析研究的发展起到助推作用。 本书共10章,下面简要介绍各章的内容。 第1章首先介绍了情感分析的概念,然后介绍了情感分析的应用场景,包括商业领域、文化领域、社会管理、信息预测和情绪管理等,最后对情感分析的研究现状进行了简要概述。 第2章较全面地介绍了情感分析和观点挖掘领域的主要研究问题,所涉及的具体研究任务包括情感单元抽取、情感分类、情绪分类、观点摘要、观点检索、比较观点挖掘、垃圾评论检测、情感演化分析、情感与话题传播分析,以及结合观点的商品推荐等。 第3章对情感词典的构建技术进行了分析和讨论,详细介绍了三类方法: 基于知识库的方法、基于语料库的方法和基于深度学习的方法,在每一类方法中都具体介绍了情感词典自动构建的模型和算法。 第4章重点介绍了情感分类研究。情感分类主要由主客观分类和情感倾向性分类两项任务组成,其中主客观分类旨在将文本分成主观和客观文本,情感倾向性分类旨在将文本按照正面和负面情感倾向进行分类,按照不同的应用场景,倾向性分类又可以继续分为篇章级情感分类、短文本(句子级)情感分类和属性级情感分类。 第5章详细介绍了跨领域情感分类的主要方法。跨领域情感分类旨在基于已标注好的源领域数据对没有标注的目标领域(新领域)数据进行分析。本章首先对迁移学习相关技术进行概述,然后详细介绍基于图模型的跨领域情感分类、文本与词相互促进的领域情感分类、基于矩阵分解的跨领域迁移和基于深度表征适配方法的跨领域情感分类四个模型。 第6章详细介绍跨语言情感分类研究。首先分析了跨语言情感分类存在的问题,然后根据不同的语料前提,对三个不同多语言场景下的情感分类方法进行了分析和讨论。针对双语平行语料场景,介绍了搭配对齐模型; 针对双语非平行语料场景,介绍了基于互增益标签传导模型和跨语言话题/情感模型; 针对只有目标语言语料的场景,介绍了仅用三个种子词的多语言情感分类方法和基于关键句抽取的多语言情感分类方法。 第7章概括介绍情绪分类研究。情绪分类可以被看成更细粒度的情感分类。本章首先介绍了情绪分析理论,然后对基于词典和规则的情绪分类方法、基于机器学习的情绪分类方法、复合层级情绪分类方法和多标签情绪分类方法进行了概述。 第8章首先介绍了情感摘要的研究现状和问题描述,然后详细介绍了一种用于情感摘要抽取的属性观点联合模型。 第9章介绍情感与观点检索研究。首先围绕观点检索存在的挑战对已有方法进行概述,然后详细介绍面向博客信息源的观点检索方法。 第10章对情感分析与观点挖掘研究领域的公开资源进行了整理与归纳,包括情感语料、情绪语料和情感词典,这些开放资源为情感分析与研究奠定了基础。 本书重在对文本情感分析与研究的主流方法和前沿进展进行概括、比较和分析。本书的主要读者对象为从事情感分析、文本挖掘、自然语言处理、机器学习等领域研究与应用的科研、设计和工程技术人员,也可供相关专业的研究生参考。 由于作者水平有限,所以尽管尽了最大的努力,但依然难免存在疏漏和不妥之处,敬请广大专家、读者批评指正。 作者2019年6月
more >