基于统计的汉语缩略语还原方法研究与实现

基于统计的汉语缩略语还原方法研究与实现

ID:35178815

大小:2.64 MB

页数:63页

时间:2019-03-20

基于统计的汉语缩略语还原方法研究与实现_第1页
基于统计的汉语缩略语还原方法研究与实现_第2页
基于统计的汉语缩略语还原方法研究与实现_第3页
基于统计的汉语缩略语还原方法研究与实现_第4页
基于统计的汉语缩略语还原方法研究与实现_第5页
资源描述:

《基于统计的汉语缩略语还原方法研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、''巧?可賢,,.L;分类号UDC|.k^Jl\^'密银立^.开…….pB■增'e文赛户/拿硕±研究生学位论文基于统计的巧语缩略语还原方法研究与实现申请人:张短学号:2141343培养单位:计算机科学技术学院学科专业:计算机技术研巧方向:自然语言处理指导教师:付国宏教授1完成日期:206年5月26日独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研巧工作及取得的研。巧成果据我所知,除了文中特别加

2、W标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含方获得黑龙江大学或其他教育机构的学位或证书而使用过的材料。学位论文作者签名:^赞签字日期:年^月^日学位论文版权使用授权书本人完全了解黑龙江大学有关保留、使用学位论文的规定,同意学校保留并向国家有关部口或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权黑龙江大学可,1^将学位论文的全部或部分內容编入有关数据库进行检索可W采用影印、缩印或其他复制手段保存、汇编本学位论文。,:

3、学位论文作者签名:导师签名^W(jZ^^/^:签字日期:/谷年月日签字日期勺鱼日学位论文作者毕业后去向:王作单位:电话:通讯地址::邮编中文摘要伴随着生活步伐的加快,出于简洁方便的经济原则,人们在表达时越来越多地使用缩略语。然而,缩略语的使用在给人们带来便利的同时也给许多领域带来了不便。比如在进行信息抽取时,缩略语作为噪声会降低抽取结果;在进行机器翻译时,缩略语的存在会对翻译结果的准确性造成不良的影响,等等。因此,如何准确地还原汉语缩略语已成为自然语言处理相关研究面临的重

4、要挑战。本文在以新闻语料为基础深入分析汉语缩略语特点基础上,分别采用N元语法模型、统计机器翻译模型和语义相似度方法探索汉语缩略语的还原问题。具体地,本文从以下两个方面展开研究:(1)基于N-gram、基于机器翻译模型的汉语缩略语还原。基于N-gram的缩略语还原通过构建缩略语还原知识库构造缩略语还原候选集,在N元语法模型的框架下,对缩略语还原候选集进行语言解码,获得还原结果;基于机器翻译模型的汉语缩略语还原,通过构建基于词对齐、基于短语对齐的机器翻译模型,利用Moses获得含有缩略语完整形式的目标语

5、言。实验结果表明,基于短语对齐的机器翻译模型具有更好的还原性能。(2)基于语义相似度的汉语缩略语还原:本文提出从语义角度出发,使用语义特征完成汉语缩略语的还原工作。首先,利用词嵌入模型从大量未标注的新闻文本中无监督地学习出词向量。然后,获取还原候选及其上下文的词向量。最后,通过计算语义相似度选取最佳还原候选,实现汉语缩略语的还原工作。同时,我们还利用语言模型和语义相似度结合的方法对缩略语进行还原。实验结果表明,基于N-gram结合词向量的语义相似度方法可以有效解决汉语缩略语还原问题。关键词:汉语缩略

6、语还原;语言模型;机器翻译模型;语义相似度;词向量-I-AbstractWiththerapidpaceoflife,fortheeconomicprincipleofsavingtimeandlabor,peopleusemoreandmoreabbreviationsinexpression.However,theuseofabbreviationsbringsconveniencetopeoplebutalsobringsinconveniencetomanyfields.Forexample

7、,ininformationextraction,abbreviationasnoisecanreducetheextractionresults,inmachinetranslation,thepresenceofabbreviationscausebadinfluenceontranslationaccuracyandsoon.Therefore,howtoexpandChineseabbreviationsaccuratelyhasbecomeanimportantchallengeforna

8、turallanguageprocessing.Inthispaper,onthebasisofdeeplyanalyzingtheabbreviationfeaturesinnewstext,weuseN-gramlanguagemodel,statisticalmachinetranslationmodelandsemanticsimilaritymethodtoexploreChineseabbreviationexpansionproblem.Specific

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。