跨语言词汇语义相似度计算地研究

跨语言词汇语义相似度计算地研究

ID:32314106

大小:2.58 MB

页数:60页

时间:2019-02-03

跨语言词汇语义相似度计算地研究_第1页
跨语言词汇语义相似度计算地研究_第2页
跨语言词汇语义相似度计算地研究_第3页
跨语言词汇语义相似度计算地研究_第4页
跨语言词汇语义相似度计算地研究_第5页
资源描述:

《跨语言词汇语义相似度计算地研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、跨语苦词汇语义相似度计算研究中文摘要跨语言词汇语义相似度计算研究中文摘要跨语言词汇语义相似度反映的是来自不同语言的词语之间的语义相似程度,它是跨语言信息获取系统的一个基本组成部分。随着近年来网络上多语言资源的增多,跨语言词汇语义相似度计算的研究逐渐得到了重视。本文致力于中英文词汇语义相似度的研究,证明了HowNet可以用于跨语言词汇语义相似度计算,并且平行语料库中的共现信息对跨语言词汇语义相似度计算的性能有较好的提升作用。本文的跨语言词汇语义相似度计算方法以HowNet作为跨语言知识库,基于HowNet的跨语言词汇语义相似度计算方法与单语词汇语义相似度

2、计算方法类似,以HowNet中的概念定义和义原的树形层次结构作为计算基础,通过把中英文词语转化为义原形式,之后计算义原以及词语之间的语义相似度。评测结果表明HowNet可用于跨语言词汇语义相似度计算,但是HowNet中的一些词语的定义不够准确,对算法的性能产生了不良影响。为进一步提高跨语言词汇语义相似度计算的准确性,本文引入平行语料库作为补充数据源,首先抽取词语在语料库中的上下文词语,之后根据词语的PMI信息对上下文词语进行排序,并采用多种算法计算上下文词语之间的语义相似度,在把基于HowNet的方法与基于平行语料库的方法进行融合之后,跨语言词汇语义相

3、似度计算的准确率得到了较大的提升。实验结果表明通过增加平行语料库的规模,跨语言词汇语义相似度计算的性能还会进一步提高。跨语言词汇语义相似度计算的评测采用与人工判断结果进行比较的方法,但是目前还没有可用的标准评测集。通过对英文词汇语义相似度研究中普遍采用的Miller-Charles评测集进行扩展,本文得到了包含28组中英文词语的评测集,为中英文词汇语义相似度计算提供了标准的评测集。关键词:跨语言词汇语义相似度,跨语言信息获取,HowNet,平行语料库作者:赵涛涛指导教师:姚建民AbstractResearchonCross-lingualWordSim

4、ilarityComputationResearchonCross—-lingualWordSimilarityComputationCross-lingualwordsimilarity(CLWS)reflectssemanticsimilaritybetweentwowordsindifferentlanguages,whichisabasiccomponentincross—lingualinformationaccesssystems.veryrecently,CLWSresearchstartedtoattractattentionwhenm

5、ulti—lingualcontentisfoundsurprisinglyhugeontheInternet.Inthispaper,wefocusontheresearchofmeasuringthesemanticsimilaritybetweenwordsinChineseandEnglish,wefoundHowNetisapromisingknowledgebasefortheCLWSmeasure,andparallelcorpusispromisingtofine·tulletheCLWSusingcross-lingualCO-occ

6、urrencestatistics.InthispaperweadoptedHowNetascross—lingualknowledgebase.TheHowNet-basedCLWSmeasureissimilartomatusedinmonolingualmeasures,whichbasedontheconceptdefinitionofwordandthehierarchicalstructureofthesememeinHowNet.Aftergettingtheconceptdefinitionoftheword,wecallmeasure

7、thesemanticsimilaritybetweenthesememesorthewords.TheexperimentresultsindicatethatHowNetisapromisingknowledgebaseforCLWSmeasure,andthedefinitionfailuresinHowNetinfecttheperformanceoftheCLWSmeasuremuch.ToimprovetheaccuracyoftheCLWSmeasure,inthispaper'weadoptedparallelcorpusasdevel

8、opmentdata,First,wegottheCO-occurrencewordsandr

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。