繁体中文拼写检错研究

繁体中文拼写检错研究

ID:35094543

大小:2.93 MB

页数:58页

时间:2019-03-17

繁体中文拼写检错研究_第1页
繁体中文拼写检错研究_第2页
繁体中文拼写检错研究_第3页
繁体中文拼写检错研究_第4页
繁体中文拼写检错研究_第5页
资源描述:

《繁体中文拼写检错研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、、、?、.,戴可.,論.穀續¥這麵fvv3 ̄ ̄'J二.,‘争\单位代码;10293密级:'■■'.,、,?J弁雀^違fV'>硕女緣化化乂11,论文题目:繁体中文拼写检错研究.-.■-V--'1,、入r,婚提.、-心>.功1013041127..;学号;;.:三'王勇.^—…;姓名^淹自.讀―捐.导师讀J应用技术\学科专业—计算机研究方向串互信鳥雌,-¥M±市古南申请学位类别X.:;屬....勇6若4月.论文提交日期:

2、..I:,-■■-'ij-.r.三南京邮电大学学位论文原创性声明本人声明所呈交的学位论文是我个人在导师指导下进斤的研究王作及取得的研巧成果。尽我所知,,除了文中特别加抖标注和致谢的地方外论文中不包含其他人已经发表或撰写过的研巧成果,也不包含为获得南京邮电大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示了谢意。一本人学位论文及涉及相关资料若有不实,愿意承担切相关的法律责任。.研究生签名::曰期南京邮电大学学位论文使用授权声明本人授权南京邮

3、电大学可W保留并向国家有关部n或机构送交论文的复印件和电子文?将学位论文;允许论文被查阅和借阅;可的全部或部分内容编入有关数据库进行检索;档可、制手段保、汇本学论文。本文电子文的容和纸质巧采用影印缩印或扫描等复存编位档内一(。论文的公)授权南邮电究生院论文的内容巧致布包括刊登京大学研办理。适授权。涉密盾用本书学位论文在解密^等^夺.-签q名:名:日期:肿f研巧生签导师jResearchOntheTraditionalChineseSpellingErrorDetectionThesisSubmittedtoNanjingUniversityo

4、fPostsandTelecommunicationsfortheDegreeofMasterofEngineeringByWangYongSupervisor:Prof.GuLeiMarch2016摘要繁体中文拼写检错指使用计算机自动检测繁体中文文本中是否存在汉字误用的技术,是中文信息处理领域的一个重要研究课题,是许多自然语言处理系统的重要部分,如搜索引擎、文字处理软件等系统。与西方常用的语言如英语相比,中文语言有更加复杂的语言特性:词与词之间没有明显的分隔符、词语搭配复杂多样、语法搭配复杂多样,所以繁体中文拼写检错的研究比英文更加困难。简体中文拼写检错的研究早于繁体

5、中文拼写检错的研究,所形成的主要方法包括基于规则、基于统计、以及基于特征与学习的方法,然而这些方法基于简体语料库,并且无法适用于多种拼写错误的检测,因此它们仅能作为参考方法。近年来,随着繁体中文拼写检错评测的开展,繁体中文拼写检错的研究已经渐渐成为中文信息处理领域研究的热点。本文以检测繁体文本中存在的拼写错误为研究目标,提出三种有效的检错方法:(1)首先本文提出一种基于字串切分统计词典的检错方法,利用语料库中字串出现的频率信息作为检错依据,根据字串及其频率信息来建立统计词典,并设计了基于统计规则评判的检错算法。(2)其次本文提出一种基于图模型与词性bi-gram模型的繁

6、体中文拼写检错方法,以中文分词为基础,将分词结果和可疑词替换结果以图模型来表示,并辅以词性bi-gram模型来确定最终错误字。(3)最后本文针对常用助词“的、地、得”的错误,提出一种基于上下文词性统计模型的方法,该方法利用训练语料库建立上下文词性统计模型,并依据模型来判断助词使用是否正确。本文以繁体中文拼写评测数据集为实验数据集,对提出的三种检错方法都进行了实验验证,并与现有的检错方法进行对比,实验结果说明本文的研究方法可以取得了较好的效果,进一步地推动了繁体中文拼写检错技术的发展。关键词:中文语言处理,拼写检错,中文分词,n-gram统计模型,词性标注IAbstrac

7、tTraditionalChinesespellingerrordetectionisanimportantresearchsubjectinthefieldofChineselanguageprocessing,aswellasanimportantcomponentofmanynaturallanguageprocessingsystems,includingsearchengines,wordprocessorsandsoon.ComparedwithsomewesternlanguagessuchasEnglish,Chinese

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。