词语相似度计算及其在语义选择限制知识获取中的应用研究

词语相似度计算及其在语义选择限制知识获取中的应用研究

ID:17625353

大小:929.20 KB

页数:61页

时间:2018-09-04

词语相似度计算及其在语义选择限制知识获取中的应用研究_第1页
词语相似度计算及其在语义选择限制知识获取中的应用研究_第2页
词语相似度计算及其在语义选择限制知识获取中的应用研究_第3页
词语相似度计算及其在语义选择限制知识获取中的应用研究_第4页
词语相似度计算及其在语义选择限制知识获取中的应用研究_第5页
资源描述:

《词语相似度计算及其在语义选择限制知识获取中的应用研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学校代码10459学号或申请号201522172225密级专业硕士学位论文词语相似度计算及其在语义选择限制知识获取中的应用研究作者姓名:赵倩倩导师姓名:贾玉祥博士牛常勇副教授专业学位名称:软件工程培养院系:信息工程学院完成时间:2018年5月AthesissubmittedtoZhengzhouUniversityforthedegreeofMasterWordSimilarityComputingandItsApplicationinSelectionalPreferenceAcquisitionByQianqianZhao

2、Supervisor:Dr.YuxiangJiaandA/Prof.ChangyongNiuSoftwareEngineeringSchoolofInformationEngineeringMay2018摘要词语相似度计算是自然语言处理的基础性工作,可以应用于信息检索、机器翻译、知识获取等任务。本文结合汉语特点,提出融合词典、词向量、汉字、部首等多源知识的词语相似度计算方法,探讨了词语相似性与相关性之间的区别,以构建更为合理的词语相似度计算评测数据集,最后将词语相似度计算应用于语义选择限制知识获取。具体内容如下:(1)基于多源

3、知识的词语相似度计算。提出基于同义词词林、词向量、汉字和部首的词语相似度计算方法,并以线性组合的方式进行融合。实验结果表明,融合方法的结果优于单一方法,在NLPCC-ICCPOL2016词语相似度计算评测数据集(PKU-500)上的结果超过了第二名。(2)区分词语相似性与相关性。对中英文词语相似度计算主流评测数据集进行了分析,区分出了相似词对与相关词对,以相似词对为基础,构建了更加精准的词语相似度计算评测数据集,使得对词语相似度计算结果的评价更加准确。(3)基于词语相似度的语义选择限制知识获取。借助未知论元与种子论元之间的词语

4、相似度进行论元扩展,从而得到谓词对论元的选择倾向。比较了基于词向量的词语相似度计算方法与基于词典的词语相似度计算方法在选择限制知识获取任务中的表现。实验结果表明,前者效果更好,且二者有一定的互补性,可以结合使用。与语义选择限制知识获取的其他方法相比,基于词语相似度的方法,种子选取灵活,不要求对语料进行深层句法语义分析,在伪消歧实验中也取得了较高的正确率,具有一定的优势。关键字:词语相似度知识获取词汇语义词语相关性语义选择限制IAbstractWordsimilaritycomputingisafundamentalissuei

5、ntasksofnaturallanguageprocessing,suchasinformationretrieval,machinetranslation,knowledgeacquisition,etc.ConsideringthecharacteristicsofChinesewords,thisthesispresentsamethodwithmulti-sourceknowledgetocalculatewordsimilarity,integratingthesaurus,wordembedding,Chines

6、echaractersandradicals.Moreover,differencesbetweenwordsimilarityandrelatednessarediscussedinordertoconstructmorereasonablesimilarityestimationdatasets.Finally,thisthesisinvestigatesthewordsimilaritybasedselectionalpreferenceacquisitionmethod.Themaincontentsofthisdis

7、sertationareasfollows:(1)Proposingamethodwithmulti-sourceknowledgetocalculatewordsimilarity.Tobespecific,thewordsimilaritymeasureisbasedonTYCCL(Extended),wordembedding,Chinesecharactersandradicals,andallsimilaritiesarecombinedthroughlinearcombinationtogetfinalsimila

8、rity.Experimentsshowthattheresultoffusionisbetterthanthatofsinglemethod,andtheresultexceededthesecondusingthedatasetofNLPCC-ICCPOL2016simi

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。