基于多语言模型融合的鲁棒手写后处理方法

基于多语言模型融合的鲁棒手写后处理方法

ID:35063559

大小:2.79 MB

页数:69页

时间:2019-03-17

基于多语言模型融合的鲁棒手写后处理方法_第1页
基于多语言模型融合的鲁棒手写后处理方法_第2页
基于多语言模型融合的鲁棒手写后处理方法_第3页
基于多语言模型融合的鲁棒手写后处理方法_第4页
基于多语言模型融合的鲁棒手写后处理方法_第5页
资源描述:

《基于多语言模型融合的鲁棒手写后处理方法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文基于多语言模型融合的鲁棒手写后处理方法ROBUSTHANDWRITINGPOSTPROCESSINGMETHODBASEDONINTEGRATIONOFMULTILANGUAGEMODEL黄哲敏哈尔滨工业大学2015年12月国内图书分类号:TP391.1学校代码:10213国际图书分类号:004.8密级:公开工学硕士学位论文基于多语言模型融合的鲁棒手写后处理方法硕士研究生:黄哲敏导师:陈清财教授申请学位:工学硕士学科:计算机科学与技术所在单位:深圳研究生院答辩日期:2015年12月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP391.1U.D.

2、C:004.8DissertationfortheMasterDegreeinEngineeringROBUSTHANDWRITINGPOSTPROCESSINGMETHODBASEDONINTEGRATIONOFMULTILANGUAGEMODELCandidate:ZheminHuangSupervisor:Prof.QingcaiChenAcademicDegreeAppliedfor:MasterDegreeinEngineeringSpeciality:ComputerScienceandTechnologyAffiliation:ShenzhenGraduate

3、SchoolDateofDefence:December,2015Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工学硕士学位论文摘要随着智能终端的飞速发展,在移动端市场上,开发一种具备篇章级连续手写能力的输入法是很有必要的。本文提出了一种全新的手写输入模式,并基于这种模式设计并开发了iOS手写输入法,该输入法能够自动对手写文字进行切分、识别,并通过统计语言模型来提升系统整体的性能。由于汉字具有结构复杂,字体多变,而且不同书写者手写体差异大的特点,仅仅依靠识别器的单字识别,已经很难再进一步提升识

4、别准确率,所以在单字识别的基础上,利用统计语言模型,结合文本上下文信息来对识别结果序列进行后处理是一种有效的方法,但是传统的语言模型均是在N-gram模型的基础上演化得来,即便加入了一些外部特征来降低模型的困惑度,却仍然无法摆脱N-gram模型带来的根源性影响,本文将针对这一问题,提出两种解决途径,一种是修改语言模型来降低错误传递对整体识别结果的影响,另一种是结合循环神经网络来增强模型的路径选择能力。对于第一种途径,本文主要借鉴了神经网络中的双向启发和Skip-gram模型中的跳跃思想,共提出了6种增强系统鲁棒性的方法,并将提升效果最好的跳跃统计模型与循环神经网络进行结合来

5、查找最优路径。实验中,本文以人民日报语料,Wiki百科中文语料以及Sogou在线新闻语料作为训练数据集,在中科院采集的CASIA-OLHWDB2.0,2.1和2.2(总计约135万字的在线连续手写数据集)的部分数据集上进行测试。结果表明,本文提出的跳跃语言模型在增强语言模型的鲁棒性以及消除错误传递的问题上首选率提升了3.35%,并且在修改F值上有很大幅度的提升,从数据上证明了方法在解决错误传递问题的有效性。关键词:统计语言模型;语句级手写后处理;鲁棒语言模型;循环神经网络;错误传递-I-哈尔滨工业大学工学硕士学位论文ABSTRACTWiththerapiddevelopme

6、ntofsmartmobiledevices,itisnecessarytodevelopainputmethodwiththeabilityofcontinuoushandwriting.Inthispaper,anewpatternofhandwritinginputmethodhasbeenpresentedafterfullyanalysisingtheuser’srequirement.Basedonthismode,acustominputkeyboardoniOSplatformhasbeendeveloped,thususercanplacemuchfocu

7、sonwritingitself,meanwhile,thesystemwillautomaticallysegment,recognizeandimprovethefullysystemperformancebystatisticallanguagemodel.AsChinesecharactershavecomplexstructure,changeablefontanddifferentwritingstyle,onlyrelyonthesinglecharacterrecognitionisnotenoug

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。