首页 > 图书中心 >图书详情
文字识别:原理、方法和实践
作者:丁晓青 王言伟等
丛书名:清华大学学术专著
定价:128元
印次:1-1
ISBN:9787302454625
出版日期:2017.04.01
印刷日期:2017.03.21
本书基于模式识别和信息熵理论,全面、系统和深入地分析介绍了各种汉字、多文种文字识别的理论和方法,以及解决复杂多变的多文种文字和文档识别中关键问题的有效算法和具体实践。本书可以作为相关专业研究生的参考书,也可以供从事模式识别、文字和文档识别等计算机信息处理研究的科研人员和从事相关产品开发的工程技术人员阅读参考。
more >文字是人类信息最重要的载体和最集中的表象,记载了几千年人类的文明和历史,对五千年中华文明的传承和发展起着极其关键的作用。当今人类社会进入快速计算机网络信息化的时代,信息的全球化和大数据资源的获取,首先要求解决和实现各类信息的数字化,特别是文字和文档信息的计算机数字化。计算机信息化,就是要求计算机也能像人一样识图认字:使计算机具有对图像或文字表象的自动识别的能力。也就是说,文字和文档识别信息化也是人工智能和计算机视觉需要解决的重要问题。20世纪60年代,国际上就十分重视对文字识别的研究。我国汉字数量巨大、结构复杂,难以输入计算机,这成为汉字信息化的拦路虎,因此,汉字识别及海量文档的计算机数字化研究极为紧迫,并具有特殊的历史意义。作者所在的清华大学智能图文信息处理研究室从20世纪80年代就开始了汉字等多文种文字和文档识别信息化的研究和探索,数十位师生持续卅余年,齐心奋力,在文字识别的理论和方法研讨上、在大规模印刷、联机和脱机手写汉字识别、中日韩、蒙藏维哈柯阿民族文字文档识别的研究上取得领先的研究成果,并将研究成果在世界范围推广应用。这些经历和成果成为本书撰写的直接动因。《文字识别:原理、方法和实践》一书围绕模式识别和文档信息化而展开。基于模式识别和信息熵理论分析,对文字和文档识别的理论和方法以及关键问题进行了较为深入、系统的分析和研究,并介绍了多种文字和文档识别方法和系统。全书包括11章,各章内容如下: 第1章绪论介绍文字的基本属性和特点;第2章模式识别和模式识别信息熵理论,揭示模式识别的核心互信息,汉字和汉字文本的信息熵;第3章介绍汉字识别的特征提取和优良的汉字识别特征;第4章介绍特征的鉴别分析、维数压缩和特征高斯分布整形;第5章介绍最优贝叶斯分类器和MQDF设计;以上章节主要介绍文字识别基本理论。第6章介绍脱机手写汉字识别的鉴别学习方法;第7章介绍基于时空统一模型的结构联机汉字识别方法,以及基于结构特征的统计联机手写汉字识别系统; 第8章介绍利用上下文语言信息进行汉字文本识别后处理的理论方法;第9章介绍基于过切分的文本行识别及基于HMM的无切分文档识别方法;第10章介绍复杂文档版面的自动分析、理解和重构,及文档自动识别和重构方法;第11章介绍蒙藏维多文种文字文档识别的策略、理论和方法,为民\|汉跨文种文档识别理解打下基础。本书有选择性地针对文字和文档识别中必须解决的诸多重要问题,从单字、联机、多变脱机汉字识别、鉴别学习,到复杂版面、连笔书写、上下文相关文档识别,以及多文种民族文字识别,力图较完整地,从理论、方法和实践进行深入分析和讨论。全书内容主要源自我们研究工作的总结,大部分章节源于研究生的论文,包括张睿、刘海龙、张嘉勇、林晓帆、征荆、陈彦、王学文、王言伟、李元祥、姜志威、陈明、王华等同学的博士论文。丁晓青负责全书的编撰,王言伟还做了大量文档编辑工作。希望读者能够对文字和文档识别的理论、方法和实践有较为全面的认知和了解,并从中获得有益的启发。最后需要说明的是,本书没有也不可能完全包括当前在此领域内最新的研究成果和发展。对于读者,本书能够起到抛砖引玉的目的,我们就十分欣慰了。本书的内容主要源自研究组对文字和文档识别理论和方法的研究和探索,特别是汉字识别研究开创者之一,已故的吴佑寿院士,他的一贯支持,为汉字识别研究的成功发挥了重要作用;刘长松、彭良瑞进行了长期的工作,为本书和研究成果的产品化,作出突出贡献;以及集数十位研究生的不懈努力和研究成果,除上面已经提及的参与者外,还包括:朱夏宁、董宏、黄晓非、李彬、徐宁、郭繁夏、苟大银、赵明生、郭宏、刘今晖、陈友斌、方驰、靳简明、陈力、鲁湛、陈彦、李闯、王贤良、文迪、何峰、姚正斌、李昕、蒋焰、付强等。在此一并表示衷心的感谢!
more >