欢迎来到天天文库
浏览记录
ID:37032468
大小:4.11 MB
页数:80页
时间:2019-05-17
《中文拼写检错和纠错算法的优化及实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号学号M201676085学校代码10487密级硕士学位论文中文拼写检错和纠错算法的优化及实现学位申请人:张松磊学科专业:软件工程指导教师:刘小峰副教授答辩日期:2018.12.18AThesisSubmittedinPartialFulfillmentoftheRequirementsfortheDegreefortheMasterofEngineeringOptimizationandImplementationofChineseSpellingErrorDetectionandCorrectionAlgorithmCandidate:ZhangSongleiMajor:Softw
2、areEngineeringSupervisor:Assoc.Prof.LiuXiaofengHuazhongUniversityofScience&TechnologyWuhan430074,P.R.ChinaDecember,2018华中科技大学硕士学位论文摘要随着计算机和互联网的发展,越来越多的行业在工作或生活中使用计算机和电子文档等进行沟通和协作。中文拼写检错和纠错是保证沟通和协作过程中正确性的重要技术,是检验中文是否存在拼写错误并给出正确建议字的重要工具和中文自然语言处理研究领域中的重要课题。中文拼写纠错的应用领域十分广泛,如中文输入法、手写体识别、文档编辑、搜索引擎和问答系统等
3、等。由于中文自然语言处理的起步较晚,多音、形近,以字为单位的中文特点导致中文拼写纠错难度较大,所以中文拼写纠错的精度一直较低。在前人的基础上,提出了新的检错和纠错算法。提出了基于N元语言模型和中文分词的中文拼写检错算法以及基于加权噪声信道模型的中文拼写纠错算法。经过详细的调查,总结了中文拼写错误的多种错误类型和成因,并设计和实现了一个用于拼写检错和纠错的框架。将中文文本进行基于字的N元切分并统计概率,结合混淆集,提出了基于N元概率的检错算法。将两者结合并引入N元语言模型;将噪声信道模型、字频概率和字与字拼音之间的最小编辑距离结合,提出了基于加权噪声信道模型的中文拼写纠错算法。为了寻找最优的
4、参数集合和解码速度,实现了多种平滑方法的N元语言模型框架和BeamSearch解码算法。对提出的多种中文拼写检错算法和中文拼写纠错算法在相同的测试数据集上做了实验。经过实验数据的对比和分析发现,提出的中文拼写检错算法在准确率、精确率和F1值上具有一定的优越性。提出的基于加权噪声信道模型的纠错算法在准确率、召回率和F1值上具有一定的优越性。为该领域提供了一定的参考和借鉴以及进一步推动了相关领域技术的进一步发展。关键词:中文拼写纠错;噪声信道模型;中文分词;N元语言模型;解码算法I华中科技大学硕士学位论文AbstractWiththedevelopmentofcomputers,moreand
5、moreindustriesusecomputerstocommunicateandcollaborateatworkorinlife.Chinesespellingerrordetectionandcorrectionisanimportanttechnologytoensurethecorrectnessofcommunicationandcollaboration,whichisusedtocheckwhetherChinesehasspellingerrorsandgivecorrectsuggestions.ItisanimportanttopicinthefieldofChin
6、esenaturallanguageprocessingresearchandhasawiderangeofapplications,suchasdocumenttool,handwritingrecognition,searchengineandquestionansweringsystem.ThelatestartofChinesenaturallanguageprocessingandcomplexfeaturesofChinese(suchasmulti-tone,near-shapeandwithoutobviousintervalbetweencharacters)maketh
7、eChinesespellingerrordetectionandcorrectionmoredifficult.Afteradetailedinvestigation,authorsummarizesthevarioustypesofChinesespellingerrorsandcausesofthem.PaperproposesaChinesespellingdetectionmethodbasedonCharac
此文档下载收益归作者所有