基于文字特征的文档碎纸片半自动拼接

基于文字特征的文档碎纸片半自动拼接

ID:33486069

大小:837.99 KB

页数:5页

时间:2019-02-26

基于文字特征的文档碎纸片半自动拼接_第1页
基于文字特征的文档碎纸片半自动拼接_第2页
基于文字特征的文档碎纸片半自动拼接_第3页
基于文字特征的文档碎纸片半自动拼接_第4页
基于文字特征的文档碎纸片半自动拼接_第5页
资源描述:

《基于文字特征的文档碎纸片半自动拼接》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、万方数据国,印“研凸∥珂PP砌g口玎d卸阮口砌肿计算机工程与应用2012,48(5)207基于文字特征的文档碎纸片半自动拼接罗智中LUOZhizhong华东交通大学机电工程学院,南昌330013SchoolofMechanicalandElectricaIEnginee血g,E觞tChimJi∞tongU痂Ve瑙i劬N柚ch锄g330013,ChinaLUoZhizhong.Semi—aut0s6tchingofscrappedpaperbasedoncharactercharacterisUc.ComputerEn西neeriⅡgandA

2、ppHca-dons,2012,铝(5):207·2lO.Abstract:Thispaper锄alyzesd锄耐tsofclassicalstitchingmethodb勰cdonedgegeome时charac硎sticofscml)pcdp印盯,studiesch扰lct耐sticofcharactcrrow柚dtable酣dinscrappedpap%invest追atesnleiracquisiti∞metllod,锄dproposesas啪iamostitch.ingmethodf.orscmppedpaperb船edoncha

3、mcter’rowandtablegrid.IIltlle∞d'Clang岫gecornp咖pr0罂撇sfors锄i-autostitchingofscmppedp印crarcdcVelopedaccordingt0thisalgorithrn.Theya心appliedinastitchingexp嘶m∞tfol。piecesofscmppcdpap%Theresultshows廿1attllissenli-au幻stitchiIlgmethodiseff酏tiVe.Keywords:stitchil唱ofscmppedpapcr;ima

4、gestitching;pa仕锄rcco辨ition摘要:分析了基于几何特征的碎纸片自动拼接方法的缺点,研究了碎纸片内文字行特征,表格特征特点,以及碎纸片内文字行特征、表格线特征的获取方法,提出了基于碎片文字行特征或表格特征的碎片半自动拼接算法。根据算法研制了C语言计算机程序,用该程序对一实际例子进行了拼接试验,试验结果表明该方法效果良好。关键词:碎纸片拼接;图像拼接;模式识别DOI:lO.3778巧.is娓.1002.8331.2012.05.060文章编号:1002.833l(2012)05.0207.04文献标识码:A中图分类号:TP

5、3011引言常规文档碎纸片计算机拼接方法一般利用碎片边缘的尖点特征、尖角特征、面积特征等几何特征,搜索与之匹配的相邻碎纸片并进行拼接n卅,这种基于边界几何特征的拼接方法并不适用于边缘形状相似的碎纸片。但是人手撕裂碎纸片时,为节省时间习惯上总是先将碎纸片重叠在一起,然后撕裂,再将碎纸片重叠起来,再继续撕裂,这样反复下去,直到得到满意大小的碎纸片为止。这种撕裂过程会产生很多形状非常相似的碎纸片,拼接时如果只利用碎片的边界特征,拼接效果并不理想。对这类边缘相似的碎纸片的拼接,理想的计算机拼接过程应与人工拼接过程类似,即拼接时不但要考虑待拼接碎纸片

6、边缘是否匹配,还要判断碎片内的字迹断线或碎片内的文字内容是否匹配,然而由于理论和技术的限制,让计算机具备类似人那种识别碎片边缘的字迹断线、以及理解碎片内文字图像含义的智能几乎不太可能。但是利用现有的技术,完全可以获取碎片文字所在行的几何特征信息,比如文字行的行高、文字行的I.日J距等信息,拼接碎片时如利用这些信息进行拼接,其拼接效率无疑比单纯利用边界几何特征方法要好些。由于大多数文字文档的文字行方向和表格线方向平行且单一,如果碎片内的文字行或表格在碎片边缘断裂,那么与它相邻的碎纸片在边缘处一定有相同高度、相同间距的文字行或表格,凭此特征可以

7、很容易地从形状相似的多碎片中挑选出相邻碎片。因文字行或表格线的高度特征、间距特征的识别比字迹断线识别和文字图像的理解实现起来要容易得多,利用碎片内文字行特征或表格特征拼接形状相似的碎纸片理论上是可行的。另一方面由于计算机数字分析图像能力的缺陷,让计算机对碎片进行完全意义上的自动化拼接也几乎不太可能,为保证拼接的准确性,需要在拼接过程中加入人工干扰过程。一般而言拼接碎片时先利用计算机搜索与目标碎片匹配的未拼接碎片,并根据匹配程度按顺序显示待选碎片,操作员再根据人脑进一步分析结果舍弃或拼接待选碎片。这种半自动拼接方法综合利用了计算机高速计算能力

8、以及人的文字图像识别和理解能力,拼接效率比纯人工高,拼接准确性也好于纯计算机拼接法。本文将详细研究这种基于文字特征、表格特征的碎片半自动拼接方法。2文字行特征的获取2.1文字行方

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。