基于中文维基百科的词语相关度计算

基于中文维基百科的词语相关度计算

ID:38279337

大小:364.49 KB

页数:6页

时间:2019-05-26

基于中文维基百科的词语相关度计算_第1页
基于中文维基百科的词语相关度计算_第2页
基于中文维基百科的词语相关度计算_第3页
基于中文维基百科的词语相关度计算_第4页
基于中文维基百科的词语相关度计算_第5页
资源描述:

《基于中文维基百科的词语相关度计算》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、JOURNALOFTHECHINASOCIETYFORSCIENTInC情报学报ISSN1000—0135ANDIECHNICALINFORM加ONIsSN1O0o一0135第31卷第12期1265—1270,2012年12月Vo1.31No.12,1265—1270December2012doi:10.3772/j.issn.1000-0135.2012.12.005基于中文维基百科的词语相关度计算谌志群高飞曾智军(杭州电子科技大学计算机应用技术研究所,杭州310018)摘要词语相关度的计算是自然语言处理关键技术之一

2、,在信息检索、机器翻译、词义消歧、句法分析等领域有广泛应用。国内现有大部分词语相关度计算方法是基于知网(HowNet)的。本文将中文维基百科作为语义资源,利用其分类层次、概念文档之间的链接来计算汉语词语之间的相关度。在借鉴向量空间模型和谷歌相似度(GoogleSimilarityDistance)计算方法基础上,通过构建分类图和相关语义向量来实现汉语词语相关度的计算。在测试集WordSimilarity.353上进行了实验,实验结果的斯皮尔曼等级相关系数显示,本文的方法是可行和有效的。关键词词语相关度计算维基百科分类图

3、语义向量WordRelatednessMeasureBasedonChineseWikipediaChenZhiqun,GaoFeiandZengZhijun(InstituteofComputerApplicationTechnology,HangahouDiansiUniversity,Hangzhou,310018)AbstractWordrelatednessmeasureisoneofthekeytechnologiesinnaturallanguageprocessing.Itiswidelyusedint

4、hefieldsofinformationretrieval,machinetranslation,worddisambiguationandsyntaxanalysis,etc.MostofexistingmethodsofChinesewordrelatednesscomputingisbasedonHowNetresource.Inthispaper,basedonChineseWikipedia,therelatednessamongChinesewordsismeasuredbymakinguseofthel

5、inksofclassificationhierarchyandthelinksofexplanationdocumentsofconcepts.ThemeasureisimplementedbyconstructingaclassificationgraphandrelatedsemanticvectorbasedonvectorspacemodelandGooglesimilaritydistanceofinformationretrievaltechnology.Theexperimentsareperforme

6、donthetestsetWordSimilarity一353andtheSpearmanrankcorrelationcoeficientshowsthattheproposedmethodofwordrelatednessmeasurei8feasibleandeffective.Keywordswordrelatednessmeasure,Wikipedia,classificationgraph,semanticvector性,但是有某种相关性。语义知识的获取是进行词1引言语相关度计算的基础,语义知识的获取来源

7、大致可以分为两类:一类是大规模的真实文本,包括各种规词语和概念是语句的基本句法单位和语义单模的语料库;一类是语义知识库(如HowNet,维基百元,词语之间的相关度计算是研究词语相互关系的科等)。核心内容之一,在信息检索、信息抽取、词义消歧、机根据大规模的真实文本计算词语相关度主要采器翻译、句法分析等领域有着很重要的作用。词语用基于统计的方法,如在大规模语料中统计计算每相关度反映两个词语相互之间关联的程度。词语相个词的特征向量,然后通过向量的夹角余弦计算两关性和相似性不同,如“黑夜”和“白天”,没有相似个词的相关度。李涓

8、子⋯利用这种思想实现语义收稿日期:2012年4月11日作者简介:谌志群,男,1973年生,副教授,主要研究方向:中文信息处理。E-mail:chenzq@hdu.edu.cn。高飞,男,1985年生,硕士研究生,主要研究方向:中文信息处理。曾智军,女,1987年生,硕士研究生,主要研究方向:数据挖掘。1)本文受国家自然科学基金(项

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。