首页 > 图书中心 >图书详情

文字识别:原理、方法和实践

体系完整有广度,理论分析有深度,水平方法有高度

作者:丁晓青 王言伟等
丛书名:清华大学学术专著
定价:128
印次:1-1
ISBN:9787302454625
出版日期:2017.04.01
印刷日期:2017.03.21

本书基于模式识别和信息熵理论,全面、系统和深入地分析介绍了各种汉字、多文种文字识别的理论和方法,以及解决复杂多变的多文种文字和文档识别中关键问题的有效算法和具体实践。本书可以作为相关专业研究生的参考书,也可以供从事模式识别、文字和文档识别等计算机信息处理研究的科研人员和从事相关产品开发的工程技术人员阅读参考。

more >

文字是人类信息最重要的载体和最集中的表象,记载了几千年人类的文明和历史,对五千年中华文明的传承和发展起着极其关键的作用。当今人类社会进入快速计算机网络信息化的时代,信息的全球化和大数据资源的获取,首先要求解决和实现各类信息的数字化,特别是文字和文档信息的计算机数字化。计算机信息化,就是要求计算机也能像人一样识图认字:使计算机具有对图像或文字表象的自动识别的能力。也就是说,文字和文档识别信息化也是人工智能和计算机视觉需要解决的重要问题。20世纪60年代,国际上就十分重视对文字识别的研究。我国汉字数量巨大、结构复杂,难以输入计算机,这成为汉字信息化的拦路虎,因此,汉字识别及海量文档的计算机数字化研究极为紧迫,并具有特殊的历史意义。作者所在的清华大学智能图文信息处理研究室从20世纪80年代就开始了汉字等多文种文字和文档识别信息化的研究和探索,数十位师生持续卅余年,齐心奋力,在文字识别的理论和方法研讨上、在大规模印刷、联机和脱机手写汉字识别、中日韩、蒙藏维哈柯阿民族文字文档识别的研究上取得领先的研究成果,并将研究成果在世界范围推广应用。这些经历和成果成为本书撰写的直接动因。《文字识别:原理、方法和实践》一书围绕模式识别和文档信息化而展开。基于模式识别和信息熵理论分析,对文字和文档识别的理论和方法以及关键问题进行了较为深入、系统的分析和研究,并介绍了多种文字和文档识别方法和系统。全书包括11章,各章内容如下: 第1章绪论介绍文字的基本属性和特点;第2章模式识别和模式识别信息熵理论,揭示模式识别的核心互信息,汉字和汉字文本的信息熵;第3章介绍汉字识别的特征提取和优良的汉字识别特征;第4章介绍特征的鉴别分析、维数压缩和特征高斯分布整形;第5章介绍最优贝叶斯分类器和MQDF设计;以上章节主要介绍文字识别基本理论。第6章介绍脱机手写汉字识别的鉴别学习方法;第7章介绍基于时空统一模型的结构联机汉字识别方法,以及基于结构特征的统计联机手写汉字识别系统; 第8章介绍利用上下文语言信息进行汉字文本识别后处理的理论方法;第9章介绍基于过切分的文本行识别及基于HMM的无切分文档识别方法;第10章介绍复杂文档版面的自动分析、理解和重构,及文档自动识别和重构方法;第11章介绍蒙藏维多文种文字文档识别的策略、理论和方法,为民\|汉跨文种文档识别理解打下基础。本书有选择性地针对文字和文档识别中必须解决的诸多重要问题,从单字、联机、多变脱机汉字识别、鉴别学习,到复杂版面、连笔书写、上下文相关文档识别,以及多文种民族文字识别,力图较完整地,从理论、方法和实践进行深入分析和讨论。全书内容主要源自我们研究工作的总结,大部分章节源于研究生的论文,包括张睿、刘海龙、张嘉勇、林晓帆、征荆、陈彦、王学文、王言伟、李元祥、姜志威、陈明、王华等同学的博士论文。丁晓青负责全书的编撰,王言伟还做了大量文档编辑工作。希望读者能够对文字和文档识别的理论、方法和实践有较为全面的认知和了解,并从中获得有益的启发。最后需要说明的是,本书没有也不可能完全包括当前在此领域内最新的研究成果和发展。对于读者,本书能够起到抛砖引玉的目的,我们就十分欣慰了。本书的内容主要源自研究组对文字和文档识别理论和方法的研究和探索,特别是汉字识别研究开创者之一,已故的吴佑寿院士,他的一贯支持,为汉字识别研究的成功发挥了重要作用;刘长松、彭良瑞进行了长期的工作,为本书和研究成果的产品化,作出突出贡献;以及集数十位研究生的不懈努力和研究成果,除上面已经提及的参与者外,还包括:朱夏宁、董宏、黄晓非、李彬、徐宁、郭繁夏、苟大银、赵明生、郭宏、刘今晖、陈友斌、方驰、靳简明、陈力、鲁湛、陈彦、李闯、王贤良、文迪、何峰、姚正斌、李昕、蒋焰、付强等。在此一并表示衷心的感谢!

more >
扫描二维码
下载APP了解更多

同系列产品more >

输电线路雷电防护

何金良
定 价:298元

查看详情
高温气冷堆工艺热应用(英文版)

[德]库尔特·库格勒、张
定 价:468元

查看详情
模块式高温气冷堆核电站

[德]库尔特·库格勒、张
定 价:398元

查看详情
可穿戴式日常行为语义感知及增强方法...

王鹏、杨士强
定 价:59元

查看详情
量子力学的前沿问题(第3版)

张礼 葛墨林
定 价:198元

查看详情
图书分类全部图书
more >
  • 《文字识别:原理、方法和实践》一书围绕模式识别和文档信息化而展开。基于模式识别和信息熵理论分析,对文字和文档识别的理论和方法以及关键问题进行了较为深入、系统的分析和研究,并介绍了多种文字和文档识别方法和系统。
  • 《文字识别:原理、方法和实践》一书围绕模式识别和文档信息化而展开。基于模式识别和信息熵理论分析,对文字和文档识别的理论和方法以及关键问题进行了较为深入、系统的分析和研究,并介绍了多种文字和文档识别方法和系统。
more >
  • 目录第1章绪论1.1引言1.2文字和汉字1.2.1文字的代码表示1.2.2汉字的字体字形1.2.3汉字的特点 1.2.4中文信息处理1.3文字识别和汉字识别1.4文字识别研究历程1.5文字识别分类1.5.1按照不同文种文字和文档的识别技术分类1.5.2按照获取图像方式和识别对象不同分类1.5.3单个字符识别和文档篇章识别1.6文字识别与笔迹鉴别1.7汉字识别的基本方法——基于视觉感知的汉字识别方法1.8关于本书参考文献第2章模式识别和模式识别信息熵理论2.1引言: 模式与模式识别2.2基于贝叶斯统计决策的模式识别2.3模式识别统一信息熵理论2.3.1特征和类别及其相关信息熵2.3.2后验熵:最优贝叶斯分类器误识率的上限2.3.3模式识别的学习与识别信息过程2.3.4互信息:决定模式识别性能的鉴别熵2.4正态分布条件下的模式识别信息熵系统2.5最大互信息鉴别分析(互信息鉴别子空间模式识别) 2.5.1最大互信息子空间线性鉴别分析方法2.5.2最大互信息线性鉴别分析与线性鉴别分析LDA2.6特征选择的信息熵准则2.6.1基于错误概率的类别可分性准则2.6.2基于有效互信息的类别可分性准则2.7从信息熵分析看提高识别性能的途径2.8汉字集合和汉字文本的信息熵2.8.1汉字集合的信息熵2.8.2汉字文本的信息熵和汉字的极限熵2.9本章小结参考文献第3章汉字识别的特征提取3.1引言3.2汉字字符图像规一化预处理3.2.1线性规一化3.2.2非线性规一化3.2.3基于整体密度均衡的非线性规一化3.3汉字识别中的特征抽取3.3.1结构特征3.3.2统计特征3.4汉字识别特征提取研究的发展历程...

精彩书评more >

标题

评论

版权所有(C)2023 清华大学出版社有限公司 京ICP备10035462号 京公网安备11010802042911号

联系我们 | 网站地图 | 法律声明 | 友情链接 | 盗版举报 | 人才招聘