欢迎来到天天文库
浏览记录
ID:36613363
大小:1.18 MB
页数:46页
时间:2019-05-13
《中文文本自动校对中的自动纠错技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、贵州大学硕士学位论文中文文本自动校对中的自动纠错技术研究姓名:汪维家申请学位级别:硕士专业:计算机应用技术指导教师:陆汝占;陈笑蓉20030501贵州大堂硕士学位论文摘要s乏7127中文文本自动校对技术是惩向错误的中文文本的处理技术,它的研究目的是为了使计算机能够自动地将有错误的中文文本再现为与原稿一致的正确文本。中文文本自动校对的研究由两部分组成:自动查错和自动纠错。目前对中文自动校对技术的研究主要是集中在自动聋错上,对自动纠错的研究要滞后得多,鲜见有专门的研究。为了开拓思路,多角度地全面展开中文文本自动校对的研究.本文尝
2、试以中文文本自动纠错为对象进行专门的研究探讨。本文首先总的介绍了中文文本自动校对技术的研究背景和现状,着重讨论了自动纠错研究中存在的问题和难点,继而简述了一些与中文文本自动纠错相关的理论及评价指标。在对中文文本错误的类型及其分析方法进行归类和总结的基础上,本文设计了一个纠错知识库将纠错知识引入计算机。基于纠错知识库的支持.本文采用窟发式方法,在构建纠错建议集方蔼做了有益的尝试。与此届时,在借鉴国外先进理论的基础上,将基于特征学习的方法引入独立的中文文本自动纠错研究中,重点探讨了利用纂于特征学习的winnow方法来对纠错建议集
3、中的纠错建议进行捧序和选择。为了确保上述工作的正确性和有效性,本文进行了评估实验。该实验表明这种方法的首选订正率达到38%,性能比目前常用的N元模型方法有明显的提高。关键词:中文信息处理、中文文本自动校对、中文文本自动纠错、Winnow方法丝型奎堂堡主鲎堡篷苎Abs打act(Ihi袋se々∞吐铆∞铷缸妯驽dea}s谢幽也e锄嘲捧d皤C纰髓e馏&Corre州ngme耵叼n∞∞Chille辩temto出ecorrectte啦consis呦twitll也em锄u∞ript棚妇咀龇icallybytllec咖p啦酣isi协des讯蚵
4、goal.The倦§睫他hofChi耻se似t"Ⅺf嘞d妞gco璐istsor帆p鱼旧CMne∞te蚶哪钟d咖而9毋锄dChiIlese协慰errDrco盯删彻.Now幽ost嘲earc}-翳∞C妇se觚pI:ooIhadjnga糟舭usedonChi聃辩把Icte仃ofde谢i∞’bmChine辩姒t㈣rco懈吐∞ismtlysnJd础.F盯吐垃com舯ehe璐h,ede%I印蛳咀tofChine∞te味p∞o删ing疔omdim惜ntpoin馏ofvicw'tlli暑p印耵狲锄1p姆to他sea托hilIl[oChiII
5、嚣ete斌ermrc0玎ec蛞∞whouy.Int}Iispape‘tlleb∞lcg嘲明Id砌1hes.钷撤.∞ofClli雎∞跏proo如矗d扛唱a糟giV∞fi础y.Probl锄s鼢dd璇伽炳∞ofC№嚣et∞ncorf∞宅i曲a传di∞ussediIllp俄伽枷y.Al城tII%somem∞删∞aIIdeval嘣ng喇terionsofChihe∞te斌co盯ecti∞a撑inⅡodIlced.Wede3i弘a∞fr∞d船糟pos蛔Iytos沁悖也e蚰,wled萨醴∞圩喇Onb嘶dOns埘mnariz缸i∞aIncI
6、笛sific蚯强Oftyp瞄ofClline∞0e越er∞倦andtheir醐8lysismenlods。B矗sed∞tIIe乳Ippc毗of协e∞巾捌傩俺删tom眦atl蛳pltobuild吐le∞啊ec矗onadvi∞s毗bylIl黜ri鲥cm耽110d.Atthe涨廿me,me珥啊∞吐ch船ba$edonfbn将l∞mi鸱a砖鞠lldi耐ifIChine∞把】ctco玎硎ofLAndlhen血e印ppo∞hofMnnowapplied∞so嘣ngand℃hD∞i喀c0劂ionadvic翳ontIlecon优nonadv
7、j∞setisdi∞I塔sedpaills场虹雌Jy.Forens州ngtltecⅨ把c臼le站锄d硼曲姆ofo盯work。me蚓p刚抵=Iltispr髂嗽lnexp晡men‘mismethod酬湘点心h嘲I拿ctione仃盯coⅡ酬硼憎把of38%.1ts}lOwsk淝rpe哝佣豫髓蜘咩蛐llgapp嘣曲燃h峨d锄N8、”。社会的一切进步乃至生存都离不开语言。自上世纪九十年代以来,伴随着全球网络通讯技术和光盘等海量存储设备的飞速发展,人类拥有着前所未有的海垂信息资源,而其中80%以上的信息是以语言文字为载体的。那么,如何来保证如此巨量的语言信息的正确性就成为了我们人类所面临的一个既艰巨又亟待解决的课题。1
8、”。社会的一切进步乃至生存都离不开语言。自上世纪九十年代以来,伴随着全球网络通讯技术和光盘等海量存储设备的飞速发展,人类拥有着前所未有的海垂信息资源,而其中80%以上的信息是以语言文字为载体的。那么,如何来保证如此巨量的语言信息的正确性就成为了我们人类所面临的一个既艰巨又亟待解决的课题。1
此文档下载收益归作者所有