浅议中英文混排字符切分方法研究

浅议中英文混排字符切分方法研究

ID:34826744

大小:947.86 KB

页数:45页

时间:2019-03-11

浅议中英文混排字符切分方法研究_第1页
浅议中英文混排字符切分方法研究_第2页
浅议中英文混排字符切分方法研究_第3页
浅议中英文混排字符切分方法研究_第4页
浅议中英文混排字符切分方法研究_第5页
资源描述:

《浅议中英文混排字符切分方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、河北大学硕士学位论文中英文混排字符切分方法研究姓名:安艳辉申请学位级别:硕士专业:计算机应用技术指导教师:田学东;郭宝兰20040501摘要摘要目前大多数OCR是基于对单个字符的逐个识别字符切分是影响OCR系统识别的关键因素之一它直接影响到识别的正确率本文对中英文混排文档图像提出了基于字符类别的识别反馈混排字符切分方法首先利用投影方法对字符进行初步切分判断字符类别然后结合识别技术进行精细切分判断字符是否为标点符号或汉字部件对汉字部件进行合并依据识别结果是否可信确定切分结果提取粘连字符判断粘连字符的类型对于汉字粘连字符和搭接粘

2、连英文字符分别采用不同的切分方法调用识别模块切分粘连字符实验表明该方法对中英文混排文档有较好的切分效果关键词OCR字符识别字符切分字符类别判断粘连字符1AbstractAbstractAtpresent,mostOCRsystemsarebasedonsinglecharacterrecognition.ThecharacterssegmentationisoneofthekeyfactorswhichaffectcharacterrecognitioninOCRsystem..Itaffectstherecognition

3、ratedirectly.Inthispaper,herepresentedamethodoffeedbackrecognitionformixedarrangingsegmentationbasedoncharacterlanguagediscrimination.Atfirst,tosegmentthecharacterintroductorilybyprojection,soastodiscriminatecharacterlanguage;thenwiththehelpofrecognitiontechniqueto

4、segmentthecharactersfurtherandprecisely,tojudgewhetherthecharacterispunctuationorpartsofthecharacter,tomergethepartsofcharacters,andtheresultisconfirmedaftertherecognition.Toextracttheconglutinationcharacters,judgingitstypesoastocarryoutdifferentsegmentationmethoda

5、ccordingtoconglutinationChinesecharactersorEnglishcharacters,andthentotransfertothemoduleofrecognitiontosegmenttheconglutinationcharacters.TheresultsoftheexperimentsshowthatthemethodhasasatisfyingsegmentationeffectformixedarrangingofChineseandEnglishcharacters.Keyw

6、ords:OCR;CharacterRecognition;CharacterSegmentation;CharacterLanguageDiscrimination;ConglutinationCharacter2第1章引言第1章引言11课题的研究背景人类社会已开始进入信息时代信息产业的发展将对国家的发达和民族的兴旺产生重大的影响因此世界各国对信息产业的发展都给予了极大的重视和关注人类社会的不断进步带来了信息空间的增长和积累而计算机的出现为现代化信息处理提供了有效的手段在当今高度信息化的社会里如何快速高效地将字符输入到计算

7、机已成为影响人机交流信息效率的一个重要瓶颈也关系到计算机能否真正在我国得到普及应用文字是人类信息最集中的表现和最重要的载体目前字符输入主要分为人工键盘输入和机器自动识别输入两种其中人工键入速度慢而且劳动强度大一般的使用者每分钟只能输入4050个汉字这种方法不适用于需要处理大量文字资料的办公自动化文档管理图书情报管理等场合而且随着劳动力价格的升高利用人工方法进行字符输入也将面临经济效益的挑战机器自动识别输入分为语音识别和字符识别两种其中语音识别由于不同人的口音差别较大故识别的准确率较低字符识别ChineseCharacterR

8、ecognition简称CCR是用计算机自动辨识印刷在纸上或人写在纸上的汉字是模式识别的一个重要分支也是文字识别领域最为困难的问题它的一项关键技术是光学字符识别OpticalCharacterRecognition简称OCR涉及模式识别图像处理数字信号处理自然语言理解人工智能模糊数学信息论

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。