欢迎来到天天文库
浏览记录
ID:32314106
大小:2.58 MB
页数:60页
时间:2019-02-03
《跨语言词汇语义相似度计算地研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、跨语苦词汇语义相似度计算研究中文摘要跨语言词汇语义相似度计算研究中文摘要跨语言词汇语义相似度反映的是来自不同语言的词语之间的语义相似程度,它是跨语言信息获取系统的一个基本组成部分。随着近年来网络上多语言资源的增多,跨语言词汇语义相似度计算的研究逐渐得到了重视。本文致力于中英文词汇语义相似度的研究,证明了HowNet可以用于跨语言词汇语义相似度计算,并且平行语料库中的共现信息对跨语言词汇语义相似度计算的性能有较好的提升作用。本文的跨语言词汇语义相似度计算方法以HowNet作为跨语言知识库,基于HowNet的跨语言词汇语义相似度计算方法与单语词汇语义相似度
2、计算方法类似,以HowNet中的概念定义和义原的树形层次结构作为计算基础,通过把中英文词语转化为义原形式,之后计算义原以及词语之间的语义相似度。评测结果表明HowNet可用于跨语言词汇语义相似度计算,但是HowNet中的一些词语的定义不够准确,对算法的性能产生了不良影响。为进一步提高跨语言词汇语义相似度计算的准确性,本文引入平行语料库作为补充数据源,首先抽取词语在语料库中的上下文词语,之后根据词语的PMI信息对上下文词语进行排序,并采用多种算法计算上下文词语之间的语义相似度,在把基于HowNet的方法与基于平行语料库的方法进行融合之后,跨语言词汇语义相
3、似度计算的准确率得到了较大的提升。实验结果表明通过增加平行语料库的规模,跨语言词汇语义相似度计算的性能还会进一步提高。跨语言词汇语义相似度计算的评测采用与人工判断结果进行比较的方法,但是目前还没有可用的标准评测集。通过对英文词汇语义相似度研究中普遍采用的Miller-Charles评测集进行扩展,本文得到了包含28组中英文词语的评测集,为中英文词汇语义相似度计算提供了标准的评测集。关键词:跨语言词汇语义相似度,跨语言信息获取,HowNet,平行语料库作者:赵涛涛指导教师:姚建民AbstractResearchonCross-lingualWordSim
4、ilarityComputationResearchonCross—-lingualWordSimilarityComputationCross-lingualwordsimilarity(CLWS)reflectssemanticsimilaritybetweentwowordsindifferentlanguages,whichisabasiccomponentincross—lingualinformationaccesssystems.veryrecently,CLWSresearchstartedtoattractattentionwhenm
5、ulti—lingualcontentisfoundsurprisinglyhugeontheInternet.Inthispaper,wefocusontheresearchofmeasuringthesemanticsimilaritybetweenwordsinChineseandEnglish,wefoundHowNetisapromisingknowledgebasefortheCLWSmeasure,andparallelcorpusispromisingtofine·tulletheCLWSusingcross-lingualCO-occ
6、urrencestatistics.InthispaperweadoptedHowNetascross—lingualknowledgebase.TheHowNet-basedCLWSmeasureissimilartomatusedinmonolingualmeasures,whichbasedontheconceptdefinitionofwordandthehierarchicalstructureofthesememeinHowNet.Aftergettingtheconceptdefinitionoftheword,wecallmeasure
7、thesemanticsimilaritybetweenthesememesorthewords.TheexperimentresultsindicatethatHowNetisapromisingknowledgebaseforCLWSmeasure,andthedefinitionfailuresinHowNetinfecttheperformanceoftheCLWSmeasuremuch.ToimprovetheaccuracyoftheCLWSmeasure,inthispaper'weadoptedparallelcorpusasdevel
8、opmentdata,First,wegottheCO-occurrencewordsandr
此文档下载收益归作者所有