基于在线百科知识库的文本语义相关度计算-论文.pdf

基于在线百科知识库的文本语义相关度计算-论文.pdf

ID:53029983

大小:320.33 KB

页数:4页

时间:2020-04-14

基于在线百科知识库的文本语义相关度计算-论文.pdf_第1页
基于在线百科知识库的文本语义相关度计算-论文.pdf_第2页
基于在线百科知识库的文本语义相关度计算-论文.pdf_第3页
基于在线百科知识库的文本语义相关度计算-论文.pdf_第4页
资源描述:

《基于在线百科知识库的文本语义相关度计算-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、2015年5月洛阳师范学院学报May.,2015第34卷第5期JournalofLuoyangNormalUniversityVo1.34No.5基于在线百科知识库的文本语义相关度计算刘海静(太原工业学院计算机工程系,山西太原030008)摘要:本文在中文维基百科知识库的基础上,对文本语义相关度计算进行了研究.实验选取了2014年12月15日在中文维基百科网站下载的主题文章,进行处理后作为语义概念知识库.在words一240测试集上的实验结果表明,该方法比基于WordNet的LsA算法的效果要好.关键词:语义理解;在线百科知识库;语义相关度中图分类号:N37文献标识码:A文章编

2、号:1009—4970(2015)05—0080—04大数据时代的到来,使得研究者更加关注从数构成一个1"1维的语义概念空间.而任意一段待处理据中挖掘出有价值信息,而文本作为目前承载数据文本都可将其表示为该空间中的一点,即本文的文信息最多的一种形式,其数据挖掘也得到了更多的本语义表示模型.两个文本的语义相关度计算则转关注,其中的文本语义理解便是一个研究热点.换为空间中两点问的距离.对于文本语义的表示和理解,传统的研究方法该方法的优点主要有两个:一者,该知识库包大多是基于纯统计理论,在人工构建的词典知识库含的知识要比人工构建的词汇知识库大很多,并且基础上,将待处理文本以词袋模型进

3、行特征表示.是以人类的自然语言进行描述;二者,该方法可以此外,潜在语义分析LSA、基于词汇知识库如用于NLP领域的很多任务,如文本分类、聚类、相WordNet、HowNet和叙词表的方法也是目前使用较关度、相似度计算等.多的.然而,这些方法都有这样的一些缺点:如构1相关研究建词汇知识库需要词汇专家耗费大量的时间和精力,而且所构建的知识库可能会缺失领域专门词在基于大规模语料库的文本语义计算中,最著语、专有名词、俗语、谚语等,此外,对于词语的歧名的算法是LSA算法,LsA是目前在语义表达方义问题会束手无策.面常用的一种统计算法,它利用了大量非标注文本如今,随着社交媒体的不断发展,一

4、个人人都中的词语共现信息.LSA不使用任何人工背景知可编辑的、自由的在线百科知识库逐渐涌现出来.识,而是在词语文档共现矩阵上使用奇异值分解技如目前世界上最大的、拥有多个语种的维基百科知术来学习语义的表达.ISA本质上是一种高维约简识库,还有百度百科等.在这些百科知识库中包含技术,能够识别数据中大量的核心维度,这些维度了大量文章,而且每篇文章都是针对某个主题的全就是“潜在概念”.文档和词语的含义就是由这些概面而详细的文档描述.如,在中文维基百科中“中念所表示的.国历史”这个主题下就详细讲述了中国从远古到最像WordNetl_2这样的词汇知识库和Roger叙词近的诸多历史事件和发展

5、脉络.这正如人类在大脑表_3j,它们标记了词语之间一些重要的相关信息,中存储一个概念时,其实是把与该概念相关的一系包括同义关系、上下位关系、部分整体关系等.基列背景知识都储存起来了.本文的观点即以维基百于这些资源库的方法j,将文本内容映射到词语定科中的一个主题为一个语义概念,该概念同时携带义,并使用该定义作为概念.然而,这些词汇资源有一篇描述该概念的大段文本.本文假定从中文维库很少提供不同词义之间的信息,使得词义消歧很基百科中抽取出n个语义概念,由这n个概念可以难实现.而且,这种方法的另外一个缺点是,构建收稿日期:2015—02—14作者简介:刘海静(1985一),女,山西忻州

6、人,硕士,助教.研究方向:自然语言处理·80·洛阳师范学院学报2015年第5期词汇知识库需要专门的词汇专家及其大量的时间和维空间中的一点,t的语义就是t与每一维基本概精力,而且这样的资源库也仅能包含自然语言当中念的相关性强度组成的向量(w,⋯,wi,⋯,w).的一部分,特别是,很少包含专有名词、新词、口将文本转化为n维空间中的一点后,两个文本头语、专门领域的技术词汇等.此外,这些资源库之间的语义相关性计算就等价于空间中两点距离的都只是包含了个体词语的信息,而很少涉及一般的计算,而两点间距离的计算可以采用多种成熟的计世界性知识.算方法.文献[5]首次使用英文维基百科知识库来进行下

7、面,讲述该文本语义表示模型中的两个核心语义计算.实验证明,该方法可以取得和基于问题:基本概念集的构建和文本语义表示算法.WordNet几乎相同的效果;文献[6]在德语维基百2.1基本概念集的构建科基础上对词语语义相关度进行了实验,并与德语为了使该文本语义表示模型能够应用于NLP版WordNet进行了比较;文献[7]仅使用维基百科,领域的多个任务中,并且避免人工构建词汇知识库而未使用任何训练集的基础上进行了文本分类研的缺点,该模型的核心问题——基本概念集合应该究;文献[8]提出了一种基于维基百

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。