序
自动语音识别(Automatic Speech Recognition,ASR)是自然语言处理(Natural Language Processing,NLP)的一个重要领域。
世界上第一台能够自动识别语音的机器当属一种名为Radio Rex的玩具。这种玩具出现于20世纪20年代。Radio Rex是一个用赛璐璐材料制作成的玩具狗,它受到一根弹簧的控制,弹簧在500Hz的声音频率下会释放,弹簧一旦释放,玩具狗就会动起来。由于500Hz的频率粗略等于单词Rex中元音的第一个共振峰的频率,因此当人们说出Rex的时候,这只叫作Radio Rex的玩具狗就会在人们的呼唤声中自动走过来。
20世纪40年代末至50年代初,美国建立了一系列机器语音识别系统。早期,美国贝尔实验室中的系统可以识别一个单独说话人讲出的10个数字中的任何一个,这个系统存储了不依赖于说话人的10个模式,每个数字各有一个模式,每个模式都代表每个数字中的前两个元音的共振峰,研究人员通过选择与输入语音存在最高相关系数的方法使数字的语音识别正确率达到了97%~99%。
英国伦敦大学的Fry和Denes建立了一个音位识别系统,根据模式识别原则,该系统能够识别英语中的4个元音和9个辅音。Fry和Denes研发的系统首次使用了音位转移概率对语音识别系统进行约束。
20世纪60年代末至70年代初出现了许多重要的创新性研究成果。
首先,出现了一系列特征抽取算法,包括高效的快速傅里叶变换(Fast Fourier Transform,FFT)、倒谱(cepstrum)处理在语音中的应用以及语音编码中的线性预测编码(Linear Predictive Coding,LPC)的研制。
其次,提出了一些处理翘曲变形(warping)的方法,当与存储模式匹配时,通过展宽和收缩输入信号的方法处理说话速率和切分长度的差异。解决这些问题的最自然的方法是动态规划(dynamic programming)。在研究这个问题的时候,同样的算法被多次重新提出。 最早把动态规划应用于语音处理技术的人是Vintsyk,尽管他的成果没有被其他研究人员提及,但是后来有很多研究者都再次重复了他的发明。随后,Itakura把这种动态规划的思想和LPC系数相结合,并首次在语音编码中使用,他建立的系统可以抽取输入单词中的LPC特征,并使用动态规划的方法把这些特征与存储的LPC模板相匹配。这种动态规划方法的非概率应用是对输入语音进行模板匹配,称为动态时间翘曲变形(dynamic time warping)。
〖4〗新一代人工智能与语音识别〖2〗序〖4〗最后是隐马尔可夫模型(Hidden Markov Model,HMM)的兴起。1972年前后,美国的研究人员分别在两个实验室独立应用HMM研究语音问题。其中一部分的应用是由一些统计学领域的工作引起的,Baum和他的同事在普林斯顿国防分析研究所研究HMM,并把它应用于各种预测问题的解决。James Baker在于卡内基梅隆大学(CarnegieMellon University, CMU)攻读硕士期间研究了Baum等人的工作内容,并把他们的算法应用于语音处理。同时,在IBM公司的Thomas J. Watson研究中心,Frederick Jelinek、Robert Mercer、Lalit Bahl独立把HMM应用于语音研究,他们在信息模型方面的研究受到了Shannon的影响。IBM的系统和Baker的系统非常相似,都使用了贝叶斯(Bayes)算法,不同之处是早期的解码算法。Baker的DRAGON系统使用了维特比(Viterbi)动态规划解码,而IBM系统则应用了Jelinek的栈解码算法。Baker在建立DRAGON系统之前曾经短期参加过IBM小组的工作。IBM的语音识别方法在20世纪末期完全主导了语音识别领域,IBM实验室是把统计模型应用于自然语言处理的推动力量,他们研制了基于类别的多元语法模型,研制了基于HMM的词类标注系统,研制了统计机器翻译系统,他们还使用熵和困惑度作为评测系统的度量指标。
HMM逐渐在语音处理界流传开来,原因之一是美国国防部(U.S. Department of Defense)高级研究计划署(Advanced Research Projects Agency,ARPA)发起了一系列相关研究和开发计划。第一个“五年计划”始于1971年,目标是建立基于少数说话人的语音理解系统。这个系统使用了一个约束性语法和一个词表(包括1000个单词),要求语义错误率低于10%。ARPA资助了四个系统,并且对它们进行了比较,这四个系统是: 系统开发公司的系统(System Development Corporation,SDC)、Bolt,Beranek & Newman (BBN)的HWIM系统、卡内基梅隆大学的HearsayⅡ系统和Harpy系统。其中,Harpy系统使用了Baker基于HMM的DRAGON系统的简化版本,在评测系统时得到了最佳成绩。对于一般任务,Harpy系统的语义正确率达到了94%,是唯一一个达到了ARPA计划目标的系统。
自20世纪80年代中期开始,ARPA陆续资助了一些新的语音研究计划。第一个计划的任务是资源管理(Resource Management,RM),与ARPA早期的课题类似,其主要进行阅读语音(说话人阅读的句子的词汇量包含1000个单词)的转写(即语音识别),但这个系统还包括一个不依赖于说话人的语音识别装置。该计划的另一个任务是建立《华尔街杂志》(Wall Street Journal)的句子阅读识别系统,该系统的初始词汇量被限制在5000个单词以内,到最后,系统已经没有了词汇量的限制。事实上,大多数系统的词汇量都已经有了约6万个单词。后来的语音识别系统能够识别的语音已经不再是简单的阅读语音了,而是更加自然的语音。其中,广播新闻识别系统可以转写广播新闻,甚至转写那些非常复杂的新闻,如现场采访;还有CallHome系统、 CallFriend系统和Fisher系统,它们可以识别人们在电话交流中的自然对话。空中交通信息系统(Air Traffic Information System,ATIS)属于语音理解领域的课题之一,该系统可以帮助用户预订飞机票,回答用户关于航班、飞行时间、日期等方面的问题。
ARPA计划大约每年进行一次汇报,参加汇报的除了有ARPA资助的课题以外,还有来自北美和欧洲的其他“志愿者”系统,汇报时将分别测试各个系统的单词错误率和语义错误率。在早期测试中,营利型公司一般不参加比赛,但是随着时间的推移,很多公司开始积极参赛(特别是IBM公司和AT&T公司)。ARPA的比赛促进了各个实验室之间的借鉴和交流,因为在比赛中可以很容易地看出大家过去一年的研究进展和成果,这成为了HMM模型能够传播到每一个语音识别实验室的重要因素。ARPA的计划也造就了很多有用的数据库,这些数据库原来都是为了评估而设计的训练系统和测试系统(如TIMIT、RM、WSJ、ATIS、BN、CallHome、Switchboard、Fisher),但是后来却都在其他总体性研究中得到了应用。
中国在语音自动处理领域也取得了很不错的成绩。于1999年6月9日成立的安徽科大讯飞信息科技股份有限公司(简称科大讯飞)是一家专门从事智能语音及语音技术研究、软件及芯片产品开发、语音信息服务的国家级骨干软件企业。科大讯飞推出的产品包括大型电信级的应用到小型嵌入式的应用,电信、金融等行业到企业和家庭用户,PC到手机再到MP3、MP4、PMP和玩具,能够满足不同的应用环境。科大讯飞占有中文语音技术市场60%以上的市场份额,以科大讯飞为核心的中文语音产业链已经初具规模。
由以上介绍不难看出,自动语音识别是一个交叉学科,需要具备语言学、计算机科学、声学等领域的知识。
本书作者马延周不惧困难,他努力进行知识更新后的再学习,根据俄语语音的特点优化了声学层的HMM模型,采用较好的算法解决了训练数据不足和训练速度慢的问题;他还在具有较强背景噪声和多个说话人的环境下采用了降噪技术,增强了俄语语音识别的健壮性;此外,他还利用了各种能够辅助俄语语音识别的语言信息,除了俄语语音的频谱特征参数、能量参数、韵律参数以外,他还综合利用了俄语构词规则、变格变位规则、句法表现形式以及语义辨析和语境条件,有效地降低了俄语语音识别的错误率。
在研究过程中,作者建立了基于众包的俄语语音标注平台和语音语料库,设计了面向俄语新闻网页文本数据过滤清洗系统的俄语文本语料库,为俄语连续语音识别系统的研究开辟了新途径。作者还构建了一个具有一定规模的俄语发音词典,可以将俄语文本转写为相应的俄语标准发音,并对俄语语音识别中的音素集和字音转换规则进行了优化,降低了声学模型的训练难度,提高了模型的训练效果。最后,作者设计并实现的俄语连续语音识别原型系统同时具有在线识别功能和离线识别功能,这在一定程度上填补了中国俄语语音识别研究领域的空白。
本书详细阐述了作者的创新性研究,值得我们认真学习,是为序。
冯志伟2019年6月5日
前言
随着人工智能、计算技术和信号处理技术的飞速发展,以及自然语言与计算机网络的结合,语言的功能已由人际交流延伸至人机交流和机机交流,而实现这一目标的重要前提是计算机能够听懂并识别和理解人类的语言。当前,作为人机交互的关键技术,语音信息智能处理已成为网络空间环境下世界各国研究者广泛关注的热点问题之一。尤其是随着新媒体的出现和大数据的兴起,人们迫切需要对具有多通道、多来源、多语言特征的海量语音信息技术进行深化研究与创新突破,此项技术的战略意义和安全价值日渐突显。
近年来,国内外众多科研院所和企业都对英文和中文语音识别进行了深入的探索和研究,开发了一系列实用化系统,但是在俄语语音识别领域,尤其是对连续语音识别的研究还相对薄弱。本书通过考察分析国内外语音识别技术的研究现状及存在的难题,重点研究俄语连续语音识别的基本原理和关键技术,尝试采用深度神经网络(DNN)的声学模型优化训练方法,设计俄语连续语音识别原型系统。
本书试图解决以下三个问题:
(1) 俄语新闻语音语料和文本语料的采集、过滤、清洗、标注及建库方法;
(2) 建立基于DNN的声学模型和基于SRILM的语言模型,分析两类模型的训练算法优化和训练结果,并通过对比预测生成适用于语音识别的俄语发音词典;
(3) 设计与实现兼具在线和离线识别功能的俄语连续语音识别原型系统,并对原型系统的性能进行测试验证。
本书取得的主要成果如下:
(1) 在俄语声学模型训练过程中设计了基于众包的语音标注平台,建立了360小时的俄语新闻标注语音语料库,形成俄语语音识别音素集,采用DNN的优化训练方法生成了大小为59.7MB的声学模型;
(2) 在俄语语言模型训练过程中设计了俄语新闻文本语料过滤清洗系统,建立了10GB规模的纯净可训练俄语文本语料库,采用SRILM的优化训练方法生成了大小为1.21GB的四元剪枝语言模型;
(3) 通过数据驱动的方法预测生成包含76277个词形的俄语发音词典,利用该词典的数据资源,并基于Kaldi进行二次开发,实现了具有在线识别和离线识别功能的俄语连续语音识别原型系统,可以为面向特定领域的俄语语音识别实用系统的研发提供基础理论和关键技术支撑。
马延周2019年7月〖4〗新一代人工智能与语音识别〖2〗前言〖4〗