欢迎来到天天文库
浏览记录
ID:33301750
大小:3.86 MB
页数:66页
时间:2019-02-23
《中文文本编辑错误记忆校对方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、万方数据学校代号:10532学密号:G11262274级:湖南大学工程硕士学位论文中文文本编辑错误记忆校对方法研究堂僮宴请厶娃名;塞妲昱烦蕉名盈亟整;粱嫒副麴援王返垂狃究员墙差皇僮;鏊佳堂瞳童些刍鏊!筮鲑王猩诠室握童旦塑:2Q!三堡垒月诠窒筌迸旦塑;2Q!三生12县筌燮重量盒圭廛!至垂基数握万方数据FalsememoryresearchmethodofChinesetextproofreadingbyYUANDaAthesissubmittedinpartialsatisfactionoftherequirementsforthedegreeofMasterofsoftware
2、engineering1nAnalyticalchemistryintheGraduateschoolofHunanUniversitySupervisorProfessorLIZHengliang0ctober,2013㈨5㈣3m4呲4洲6吣7㈣Z洲Y万方数据工程硕士学位论文湖南大学学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名
3、:孝钞El期:沏怿睑月f日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权湖南大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于1、保密口,在——年解密后适用本授权书。2、不保密一。(请在以上相应方框内打“√”)作者签名:誊雅剥醛辄黔主趺右El期:汐,≯年f≥月厂目日期:挑年睑月易日万方数据中文文本编辑错误记忆校对方法研究摘要信息化社会的一个主要特点就是高速、海量、多种信息的传递,
4、在这些海量的信息里充斥着大量的错误,严重影响了信息传输的质量和效率。借鉴已有研究成果的基础,本文对于深入研究了中文文本编辑错误的检测和校对方法,详细阐述了文本编辑错误检测和校对的关键问题、解决方案、算法设计原理等方面。中文文本编辑错误检测和校对模型分为检测错误与改正错误两部分,理论分析与实验表明,二者分开有助于解决错误检测和校对目标中的两个关键问题,一是混淆集大小与统计语言模型的时空复杂性之间的矛盾,二是训练预料规模造成的数据稀疏现象与文本错误造成的数据稀疏假象。在文本编辑错误的检测方面,结合前人已有的一些研究成果,在详尽分析中文文本校对任务所面临的数据稀疏问题的特殊性进行的基
5、础上,提出了解决数据稀疏的三种数据平滑策略,即文本窗口缩小、平滑延后和聚类词。提出了一种前后N文字法文本窗口的自动检测方案,在对待检测字符特性分析的基础上,立足于它的局部本文语境意义,考虑前项概率和后项概率,结合三种数据平滑策略的优势,较好地解决了模型执行的时间复杂度和空间复杂度问题。实验数据验证,前后N文字法的检测机制在错误报告率,漏报率等指标上表现更优。在文本编辑错误的改正方面,介绍了最小编辑距离的概念,解释了易混淆集的作用,采用为易混淆集中的不同字符赋予不同的权重的策略,由改正错误模型从中筛选出权重较大的,作为使改正建议的正确字符。最后进行了实验验证比较,与黑马文本校对系
6、统和基于EricMays平均分配权重思想的校对模型相比,字符权重动态分配的改正错误方案的性能更优。为验证本文提出的检测错误和改正错误模型的可行性和执行效率,本文进行了实验比较。实验数据表明,本文基本完成了预期目标,实现的模型的性能在已有的成果基础上有显著的提高。关键词:文本错误;前后N文字法;易混淆集;权重分配II万方数据工程硕士学位论文AbstractInformationsocietyisakeyfeatureofhigh—speed,mass,avarietyofinformationtransmissioninthesevastamountsofinformationi
7、nahugenumberoferrors,seriouslyaffectingthequalityandefficiencyofinformationtransmiSSion.Learnfromexistingresearchresults,thepaperdelvesintoChinesefortexteditingandproofreadingerrordetectionmethods,elaboratedtexteditingandproofreadingerrordetectionk
此文档下载收益归作者所有