中文文本错误自动校对方法的研究

中文文本错误自动校对方法的研究

ID:32281259

大小:3.87 MB

页数:116页

时间:2019-02-02

中文文本错误自动校对方法的研究_第1页
中文文本错误自动校对方法的研究_第2页
中文文本错误自动校对方法的研究_第3页
中文文本错误自动校对方法的研究_第4页
中文文本错误自动校对方法的研究_第5页
资源描述:

《中文文本错误自动校对方法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要Kukich从智能处理技术的角度将英文的文本错误分成两大类:孤立词错误(isolated.worderror)和上下文依赖词错误(context.dependentworderror)。孤立词错误是一些拼写上的错误;上下文依赖的词错误,又称文本错误,本身没有拼写上的问题,即它是个正确的词,但该词不是当前文本所需要的。与孤立词错误校对技术比较,文本错误校对技术更加复杂,因为它涉及到几乎所有自然语言处理技术。汉语的语言特点决定了它只存在上下文依赖错误,文中称为中文文本错误,而没有孤立词错误。本文围绕中文文本错误的自动校对问题进行了深入研究。传

2、统的文本错误由人工进行校对,耗费大量人力、物力、财力,无法适应信息社会的需要。因此,中文文本错误自动校对模型的研究具有广泛的社会应用背景和促进社会进步的实用价值。本文首先讨论了文本校对任务的一般解决方案、常用方法及校对方法的评价标准;通过对实验结果,详尽地分析了校对工作中的关键问题,进而提出本文的基于受限Ⅳ元文法与权重动态分配的中文错误校对模型的总体框架。其次,本文阐述了基于受限Ⅳ元文法与权重动态分配的中文错误校对模型之错误检测部分。利用中文文本错误的字词特性及错误检测中的常用方法,提出了基于受限Ⅳ元文法的文本错误自动检测方法。由于发生错误的

3、字词很可能造成其周边文本的语义断续,该方法首先设定被检测词的局部文本窗口,通过观察被检测词的前项概率和后项概率,寻找局部文本上的语义断点,从而确定可能存在文本错误的可疑文本区间。区分因文本错误造成的数据稀疏同因训练语料规模过小造成的正常数据稀疏是文本校对中的难题,本文采用三种平滑策略来解决,即收缩文本窗口、后延平滑及词聚类平滑。本文还通过大量实验数据分析说明了错误断点阂值对自动检测方法性能的影响。实验显示,该错误检测方法的错误警告准确率高于其他相比较的检测模型。另外,本文还探索了利用词的语义知识对文本错误进行自动检测的方法,分析汉语词的语义氛

4、围,提出词语义支持集的概念,利用语境信息给出词语义节点投票函数,并将词语义节点投票机制运用于文本错误的自动检测,详细讨论了投票阈值对该错误检测方法性能的影响。再次,本文阐述了基于受限Ⅳ元文法与权重动态分配的中文错误校对模型之错误修正部分。在编辑距离及易混淆集的概念基础上,给出错误字符易混淆集的自动构建方法及中文文本最小编辑距离算法;分析了易混淆集字符的分类哈尔滨工业大学工学博士学位论文特征,进而给出易混淆集中候选字符的权重动态二次分配算法,提出基于字符权重动态自动分配的错误修正策略。通过实验数据,分析了这种权重分配算法的效率及对错误修正策略的

5、影响。在同一开放测试集上,对多个文本错误修正平台进行了测试并比较,数据表明本文的基于字符权重动态自动分配的错误修正策略优于其它相比较的错误修正模型。最后,为降低文本中的专有名词对校对模型性能的干扰,本文讨论了中文人名的构成规律、姓氏用字规律,分析了中文人名存在的上下文环境信息,从而提出校对环境下的统计加规则的中文人名自动识别方法。。实验表明该方法可以使人名识别的准确率和召回率达到90%以上,基本满足校对模型的需要。鉴于确定多义词词义对利用语义知识进行文本校对工作的重要性,本文还对KRrov的基于相似度转移的多义词词义排歧算法进行了改进,改进后

6、的算法取得了较好的汉语多义词的排岐效果。为验证本文提出的错误检测与修正模型的合理性和可操作性,本文还完成了一个校对模型的验证系统。关键词文本错误自动校对;统计语言模型;N元文法:编辑距离;动态权重自动分配II—AbstractFromtheartificialintelligencepointofview,KukichseparatesEnglisherrorsintotwoclasses:theisolated—worderrorandthecontext-dependentworderroLneisolated-worderrorsRre

7、misspellings;thecontext—dependentworderrors,alsocalledtexterrors,arecorrectlyspelledbutnotwantedbythecurrentcontext.Incomparisonwiththetechniquesfortheisolated-worderrors,thetechniquesforthetexterrorsaremorecomplicatedasmostoftheNLPareasareinvolvedin.ThecharacteristicofChin

8、esedeterminesthatthereonlyexistthecontext—dependenterrorsratherthantheisolated-wor

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。