欢迎来到天天文库
浏览记录
ID:35178815
大小:2.64 MB
页数:63页
时间:2019-03-20
《基于统计的汉语缩略语还原方法研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、''巧?可賢,,.L;分类号UDC|.k^Jl\^'密银立^.开…….pB■增'e文赛户/拿硕±研究生学位论文基于统计的巧语缩略语还原方法研究与实现申请人:张短学号:2141343培养单位:计算机科学技术学院学科专业:计算机技术研巧方向:自然语言处理指导教师:付国宏教授1完成日期:206年5月26日独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研巧工作及取得的研。巧成果据我所知,除了文中特别加
2、W标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含方获得黑龙江大学或其他教育机构的学位或证书而使用过的材料。学位论文作者签名:^赞签字日期:年^月^日学位论文版权使用授权书本人完全了解黑龙江大学有关保留、使用学位论文的规定,同意学校保留并向国家有关部口或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权黑龙江大学可,1^将学位论文的全部或部分內容编入有关数据库进行检索可W采用影印、缩印或其他复制手段保存、汇编本学位论文。,:
3、学位论文作者签名:导师签名^W(jZ^^/^:签字日期:/谷年月日签字日期勺鱼日学位论文作者毕业后去向:王作单位:电话:通讯地址::邮编中文摘要伴随着生活步伐的加快,出于简洁方便的经济原则,人们在表达时越来越多地使用缩略语。然而,缩略语的使用在给人们带来便利的同时也给许多领域带来了不便。比如在进行信息抽取时,缩略语作为噪声会降低抽取结果;在进行机器翻译时,缩略语的存在会对翻译结果的准确性造成不良的影响,等等。因此,如何准确地还原汉语缩略语已成为自然语言处理相关研究面临的重
4、要挑战。本文在以新闻语料为基础深入分析汉语缩略语特点基础上,分别采用N元语法模型、统计机器翻译模型和语义相似度方法探索汉语缩略语的还原问题。具体地,本文从以下两个方面展开研究:(1)基于N-gram、基于机器翻译模型的汉语缩略语还原。基于N-gram的缩略语还原通过构建缩略语还原知识库构造缩略语还原候选集,在N元语法模型的框架下,对缩略语还原候选集进行语言解码,获得还原结果;基于机器翻译模型的汉语缩略语还原,通过构建基于词对齐、基于短语对齐的机器翻译模型,利用Moses获得含有缩略语完整形式的目标语
5、言。实验结果表明,基于短语对齐的机器翻译模型具有更好的还原性能。(2)基于语义相似度的汉语缩略语还原:本文提出从语义角度出发,使用语义特征完成汉语缩略语的还原工作。首先,利用词嵌入模型从大量未标注的新闻文本中无监督地学习出词向量。然后,获取还原候选及其上下文的词向量。最后,通过计算语义相似度选取最佳还原候选,实现汉语缩略语的还原工作。同时,我们还利用语言模型和语义相似度结合的方法对缩略语进行还原。实验结果表明,基于N-gram结合词向量的语义相似度方法可以有效解决汉语缩略语还原问题。关键词:汉语缩略
6、语还原;语言模型;机器翻译模型;语义相似度;词向量-I-AbstractWiththerapidpaceoflife,fortheeconomicprincipleofsavingtimeandlabor,peopleusemoreandmoreabbreviationsinexpression.However,theuseofabbreviationsbringsconveniencetopeoplebutalsobringsinconveniencetomanyfields.Forexample
7、,ininformationextraction,abbreviationasnoisecanreducetheextractionresults,inmachinetranslation,thepresenceofabbreviationscausebadinfluenceontranslationaccuracyandsoon.Therefore,howtoexpandChineseabbreviationsaccuratelyhasbecomeanimportantchallengeforna
8、turallanguageprocessing.Inthispaper,onthebasisofdeeplyanalyzingtheabbreviationfeaturesinnewstext,weuseN-gramlanguagemodel,statisticalmachinetranslationmodelandsemanticsimilaritymethodtoexploreChineseabbreviationexpansionproblem.Specific
此文档下载收益归作者所有