欢迎来到天天文库
浏览记录
ID:27911486
大小:73.00 KB
页数:6页
时间:2018-12-07
《文档识别及其在藏文古籍识别中的应用探讨》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、文档识别及其在藏文古籍识别中的应用探讨摘要:文档识別技术能自动识别文档中的文本、图片、表框等信息,为纸质文档的全文数字化提供了便利。文章分析了文档识别过程中预处理、版面分析、行字切分、特征提取以及分类的流程,对文档识别技术的发展做了一个简单的综述,并结合藏文古籍识别的具体应用,对该技术在藏文古籍识别方面的应用难点进行了探讨。关键词:文档识别;版面分析;藏文古籍屮图分类号:G273.3文献标识码:A一、引言从20世纪90年代开始,文档分析与识别吸引了越来越多的研究者,目前冇多个专门的国际会议对该项工作进行研究。例如,ICDAR
2、(InternationalConferenceonDocumentAnalysisandRecognition),ICFHR(InternationalConferenceonFrontiersinHandwritingRecognition),DAS(IAPRInternationalWorkshoponDocumentAnalysisSystems)等,在相关领域的期刊(IEEETransactiononPatternAnalysisandMachineIntelligence、PatternAnalysisandAp
3、plications、InternationalJournalofComputerVision、InternationalJournalonDocumentAnalysisandRecognition等)上也有人量文档分析识别相关的论文出现,整个领域的研究工作处在一个快速发展的阶段。二、文档识别流程从文档识别工作的流程步骤上来说,可以分为图像预处理与版妞分析、行字切分、特征提取与分类等模块[1]。1.预处理与版面分析预处理阶段主要工作是去噪以及图像的增强和修复,之后进行版面分析,将图像分为文字区域以及非文字区域,获取结构以便
4、于重编和出版。文字区域需要进一步确定该区域的文字是属于题目、正文、标注或者其他信息等;对于非文字区域,则要判别其是插图、背景或者是噪音,并按照判别结果分别加以处理。在版面分析过程屮,需要考虑的是不同类型区域特征选择的问题和不同的分析方法及其效果评价。2.文木行字切分对于完成了预处理以及版面分析后抽取的文字区域,需要进一步的检测,将文本行以及单字进行分割。在古籍文档中,文本大多为约束文本和非约束文本混合出现,其文本行往往是不一致的倾斜和弯曲,如何动态调整切分距离,自适应处理倾斜和弯曲文本是这一步需要考虑的问题。对于切分好的文木
5、行,需要选择合理的文字切分算法对单个字符进行分割。3.特征提取与分类基于统计的方法是模式识别的一种经典方法,目前在文档分析识别上使用较为广泛的方法有SVM方法、W叶斯方法、隐马尔可夫模型等,其关键在于统计同一种字符所特有的共有性质或者相对稳定的分类特征作为识别向量。这种向量应当具有稳定的二维平面特征、水平或者垂直直方特征等。在统计方法中,这个边界是基于每个类的模式的概率分布的,这点必须预先知道或通过学习获得。三、文档识别的发展从文档识别研究的文字类型上来说,由于文档识别技术最初源于西方国家,因此拉丁文字符文档识别发展最早,冃
6、前成果也最多。随着其他国家地区科研水平的提高,越来越多的非拉丁字符识别技术有了长足发展。例如中文、日文、阿拉伯文、斯拉夫文、蒙古文、孟加拉文、藏文等。从文档识別研宄的对象上来说,其源于OCR技术,最初的目标是识别特定字体的印刷字符,后来发展到多字体的混编的印刷文档,随后,手写体文档的识别成为一个研究的新内容。与此同时,研究对象的时间也不仅仅局限于现代文档的识别研宄,大量的古籍、历史文档、古代手稿、艺术作品成为新的研究对象。四、藏文古籍识别1.藏文古籍识别的意义藏族拥有悠久辉煌的文化历史,在我国,藏文古籍文档规模宏大,其数量仅
7、次于汉语古籍文档。为了更好地保护和利用这些文档资料,对其进行全文数字化是一个亟待完成的工作。目前国内外己有一些藏文数据库建成使用,例如“尼泊尔-德国手稿文献保存计划”、藏文文献输入计划、藏传佛教资料信息中心等。然而现有的数据库,大都是将藏文古籍文献扫描成图加以保存,不便于对其进行检索以及深度开发利用,更好的手段是利用文档识别方法,对其内容进行识别并转换为内码形式进行保存。1.藏文古籍字体藏文自吞弥桑布札创制后经过千余年的实践创新,字体发展到几十种。从人的方面讲,可归纳为乌金体与乌梅体两大类。乌金体即有冠体,整体书写效果整齐划
8、一。吐蕃时期王室发布的文告、执照以及碑文、钟铭,特别是佛经写卷几乎都是用乌金体书写的。依据后弘期刊印的藏文书籍“软字精校精刻”的要求,其大都采用乌金体[2]。2.藏文识别现状目前,就国内外公开发表的文献来看,鲜见藏文古籍文档分析识别的相关研究工作。而脱机藏文字符识别工作已从最初的印刷体藏文
此文档下载收益归作者所有