图书前言

前言

乌金体藏文古籍文档分析与识别是模式识别在藏文识别特别是乌金体藏文古籍文档图像分析与识别中的应用研究,是在国家自然科学基金面上项目: 乌金体藏文古籍文档分析与识别研究(编号: 61772430,时间: 2018—2021)、国家民族事务委员会科研创新团队项目: 少数民族数字媒体智能处理及应用创新团队(编号: 〔2018〕98号,时间: 2018—2022),以及西北民族大学相关科研项目的支持下所做的工作。

作者所在的西北民族大学数学与计算机科学学院的文化遗产数字化保护研究团队,一直从事藏文识别和智能输入方面的研究。在藏文键盘输入、联机手写藏文识别、印刷体藏文识别方面取得系列成果,为乌金体藏文古籍识别的探索奠定了良好的基础。从各种数据库建设、文档图像预处理、版面分析、行切分、字切分到识别等,先后有十多位研究生投入这项工作,本书以北京版的《甘珠尔》为主要样本来源,相关研究过程和成果汇集成本书。

全书包括8章,各章内容如下: 

第1章绪论,主要介绍藏文古籍文档来源、文档特点、文字结构,以及不同粒度为识别单位的情况介绍,并对有文本文件的丽江版《甘珠尔》古籍进行了字丁和音节的统计。

第2章乌金体藏文古籍分析与识别样本库建设,包括文档预处理、版面分析、行切分、字符样本等数据集。该章包括了李振江、王轶群、韩跃辉和胡鹏飞等同学的工作贡献。

第3章藏文古籍文档图像的预处理,根据藏文古籍版面情况,介绍针对藏文古籍文档图像褪化的一些预处理方法。内容包括了韩跃辉、李振江、王轶群、赵鹏海、卢玉琪和赵庆华同学的相关工作。

第4章乌金体藏文古籍文档图像版面分析,版面分析是对版面内的图像、文本、边框信息和位置关系所进行的自动分析、识别和理解的过程,并介绍几种用于藏文古籍文档图像的版面分析方法。其中包括了赵鹏海、胡鹏飞、李振江和陈园园同学的研究成果。

第5章乌金体藏文古籍文档图像行切分,对于藏文古籍文档图像行间有笔画交叠、粘连等复杂情况,介绍几种适用于藏文的行切分的方法。其中包括了胡鹏飞、李金成、李振江和周枫明等同学的工作。

第6章乌金体藏文古籍文档字符切分,介绍字丁及符号的切分方法。主要是张策的基于结构属性的乌金体藏文古籍文本字丁切分、王轶群的结合基线位置信息的乌金体藏文古籍文字符切分。

第7章乌金体藏文古籍文本识别,介绍基于藏文部件识别方法、单字丁识别方法、端到端的文本行识别方法。李振江、张策、胡鹏飞、赵鹏海等参与了其中的相关研究。

第8章藏文古籍文档图像版面描述及版面复原,介绍藏文古籍图像版面描述与识别后的版面复原工程方法。所包括的内容主要由陈园园同学进行设计和实现。

王维兰全面负责乌金体藏文古籍文档分析与识别研究内容的设计和本书的编撰,胡鹏飞、赵鹏海、李振江等也协助了文档编辑方面的工作。

本书内容主要来源于研究组所承担的国家自然科学基金项目: 乌金体藏文古籍文档分析与识别研究(编号: 61772430)的主要成果,可能缺乏一定的理论高度,也不可能包括整个文档分析与识别领域最新的研究成果,如果能在藏文古籍识别方面起到一些抛砖引玉的作用,也是一件十分欣慰的工作了。

王维兰

2023年10月