鉴于基于上下文的词语相似度计算及其应用

鉴于基于上下文的词语相似度计算及其应用

ID:35130327

大小:6.71 MB

页数:71页

时间:2019-03-19

鉴于基于上下文的词语相似度计算及其应用_第1页
鉴于基于上下文的词语相似度计算及其应用_第2页
鉴于基于上下文的词语相似度计算及其应用_第3页
鉴于基于上下文的词语相似度计算及其应用_第4页
鉴于基于上下文的词语相似度计算及其应用_第5页
资源描述:

《鉴于基于上下文的词语相似度计算及其应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、沈阳航空工业学院硕士学位论文基于上下文的词语相似度计算及其应用姓名:郭丽申请学位级别:硕士专业:计算机应用技术指导教师:张桂平;蔡东风20090307沈阳航空工业学院硕士学位论文摘要词语之间相互关系的量化方法是自然语言处理的重要研究内容,在信息检索、词义消歧、机器翻译等自然语言处理领域都有广泛的应用。本文以知网为基础,研究和探讨了词语的语义相似度和关系相似度的度量方法,提出了语义与统计相融合的语义相似度算法和基于潜在语义索引的关系相似度算法,改进了相似度的计算结果,具体内容体现如下:现有的语义和关系相似度算法主要分为基于语义资源和基于统计两类方法,前者利用人工构建的语义词典或语

2、义网络计算相似度,而后者完全是数据驱动的方式,即从大规模的语料中统计与词语共现的上下文信息以计算其相似度。本文研究知网的语义相似度计算方法,针对其在计算异类义原词语间相似度效果不佳的不足,提出一种语义与统计相融合的语义相似度算法,以改善最终的语义相似度计算结果。本文引入国家公务员考试的替换题型作为中文词语相似度算法的测试集,在一定程度上解决该类问题缺少公共中文测试集的问题,在该测试集对不同语义相似度算法进行对比,本算法取得了较好的实验结果。针对传统的无监督或半监督的关系相似度计算中难以解决的数据稀疏问题,本文使用知网进行同义词扩展,运用奇异值分解降维去除噪声,从而提出一种基于潜

3、在语义索引的关系SN他,t度算法,最终在专利语料中进行关系分类实验,较传统的SVM分类准确率提高6%,达到44%。为进一步验证本文提出的两种相似度算法的有效性,本文实现了FAQ的相似问句检索系统和实体关系分类系统,并对上述两种词语SNn_,t度算法进行相应实验。关键词:词语相似度;关系相似度;潜在语义索引;知网沈阳航空1:业学院硕十学位论文AbstractThecomplexrelationshipbetweenthenaturallanguagewordsneedstobedealtwithquantitativeanalysispractically.Thispaperin

4、troducestwokindsofwordsimilarityalgorithm,oneissemanticsimilaritybetweenwords,andanotherisrelationsimilaritybetweenpairsofwords.Eitherofthemiswidelyusedinthefieldofnaturallanguageprocessing,suchasinformationretrieval,informationextraction,textclassification,wordsensedisambiguationandmachinet

5、ranslationbasedonexamples.Theexistingsemanticsimilarityandrelationsimilarityaremainlydividedintotwotypes:semanticresourceandstatistic,theformeralgorithmcalculatesthesimilaritybasedonamanualsemanticdictionary,andthelatterisinadata·drivenwaycompletely,whichmeansfindingoutthewordoccurrenceinfor

6、mationinthecontextfromalargecorpus.ThispaperstudiesthewordsimilarityalgorithmbasedonHownetandmanyotherstatisticalwordsimilarityalgorithms,andinordertosolvetheproblemofthewordswhosekindsofsememearedifferent,anewsimilarityalgorithmbasedonthecombinationofsemanticswithstatisticsisproposed.Itisth

7、efirsttimetousethewordalternationinnationalofficialteststoprovetheefficiencyofthealgorithm,anditsolvestheproblemoflackingthepublictestcorpusinChineseandobtainsbettereffects.ThispaperdoessynonymexpansionthroughHownet,andreducesthenumberofdimensions,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。