蒙古文古籍识别技术的研究.pdf

蒙古文古籍识别技术的研究.pdf

ID:57746175

大小:2.80 MB

页数:88页

时间:2020-03-27

蒙古文古籍识别技术的研究.pdf_第1页
蒙古文古籍识别技术的研究.pdf_第2页
蒙古文古籍识别技术的研究.pdf_第3页
蒙古文古籍识别技术的研究.pdf_第4页
蒙古文古籍识别技术的研究.pdf_第5页
资源描述:

《蒙古文古籍识别技术的研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、分类号UDC论文题目研究生:蒸趣壅指导教师::直迸塞塾攮专业:i土篡扭型堂皇堇本研究方向:蟹篚焦息处理所在学院:让篡扭堂暄2011年5月8日IvI麓毒≯、痧≯,、多扣夕~.,:,,爹;..萝一mI1III111111tlLIIY1887434原创性声明.本人声明:所呈交的学位论文是本人在导师的指导下进行的研究工作及取得的研究成果。除本文已经注明引用的内容外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得凼墓直太堂及其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名:蕉<童东.日.。期:

2、酬Z。z£’指导教师签名:—醴日.≯掣在学期间研究成果使用承诺书,+本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:内蒙古大学有权将学位论文的全部内容或部分保留并向国家有关机构、部门送交学位论文的复印件和磁盘,允许编入有关数据库进行检索,也可以采用影印、缩印或其他复制手段保存、汇编学位论文。为保护学院和导师的知识产权,作者在学期间取得的研究成果(含计算机软件、程序)属于~内蒙古大学计算机学院。作者今后使用涉及在学期间主要研究内容或研究成果,须征得内蒙古大学计算机学院就读期间导师的同意;若用于发表论文,.版权单位必须署名为内蒙古大学计算机学院方可投稿或公开发表。’、学位论

3、文作者签名:.荔。白蕴‘Et期:丝必么.杉‘指导教师签名:—丝日期:翔红么.£f._’’I内蒙古大学硕士学位论文蒙古文古籍识别技术的研究摘要目前,我国有大量的蒙古文古籍以图像的形式保存在图书馆中。这些古籍文档内容涉及宗教、历史、文化、艺术、天文、地理、民族、医学等诸多方面,是人类文化的宝贵遗产。但图像格式的古籍文档不利于研究人员的编辑,检索、以及更进一步的统计分析。因此本文以木刻印刷的《御制蒙古文甘珠尔经》为研究对象,对蒙古文古籍文档的识别进行了深入研究,对蒙古文古籍的识别提出了行之有效的解决方案,以期推动蒙古文古籍文档的电子化,为蒙古文古籍的挖掘和利用提供便利,从而促进蒙古文化的

4、传播和发扬光大。本文分析了蒙古文以及蒙古文古籍的特点,在此基础上提出了蒙古文古籍识别的方法。在预处理阶段,通过对古籍的自身特点的分析,本文选取合适的方法对蒙古文古籍文档进行倾斜校正,二值化和去噪处理。在文档分割阶段,本文依据水平投影对文档图像进行列切分,然后根据最大连通域对每一列进行词切分。在单词切分后,进一步依据主干线将蒙古文单词切分成字元(GlyphUnitAbbr.GU)。每个字元由不超过三个蒙古文字母组成。在特征提取阶段,我们根据分类要求,共提取字元的八种特征:LP,Eulernumber,BD,DCT,DWT,PCA,Con&Pro,andEPI。在分类阶段,我们采取三步

5、分类的方法。在第一步,我们利用决策树进行将所有的字元分到九组字元中的一组。在第二步,对每组字元,我们利用5个BP神经网络对该组字元进行识别。5个神经网络的输入分别为字元的五种特征向量。在第三步,通过对5个神经网络返回的5组结果综合生成每组字元的最终的识别结果。对每组识别后的结果,我们采取基于加权编辑距离的错误校正算法对结果进行校正,并最终生成编码的蒙古文古籍文档。蒙古义古藉识别技术的研究——————————————————————————————————————————————————————————————————————一本论文共选取了20页蒙古文古籍文档进行了实验。统计实验结

6、果,蒙古文单词字元切分准确率96.2%,最终单词识别的准确率达到了71%。由于蒙古文古籍是由多人书写木刻印刷而成,每一个文字存在多个不规范的变体,字母的重叠相交的问题比较明显,所以切分和识别难度较大。所以本文在文蒙古文古籍的识别率是令人满意的。关键词:蒙古文古籍,字元切分,特征提取,分类器设计,结果平滑Ⅱ内蒙古大学硕士学位论文RESEARCHOFMONGOLIANHISTORICALDoCUMENTRECOGNITIONABSTRACTTherearemanytraditionalMongolianhistoricaldocumentswhicharereservedinimage

7、formcurrently.Thecontentofthesehistoricaldocumentsinvolvesreligion,history,culture,artificial,astronomy,geography,Nationality,medicine,andSOon..Theyarevaluableheritageofhuman.However,thehistoricaldocumentsaredifficultforresearcherstoedi

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。