词汇语义相似度算法探究和应用

词汇语义相似度算法探究和应用

ID:6050500

大小:27.50 KB

页数:6页

时间:2018-01-01

词汇语义相似度算法探究和应用_第1页
词汇语义相似度算法探究和应用_第2页
词汇语义相似度算法探究和应用_第3页
词汇语义相似度算法探究和应用_第4页
词汇语义相似度算法探究和应用_第5页
资源描述:

《词汇语义相似度算法探究和应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、词汇语义相似度算法探究和应用  摘要:介绍了当前国内外有关词汇语义相似度算法的研究现状,分析并对比了几种具有代表性的计算方法,并将几种常用的词汇语义相似度算法应用于FAQ中,分别采用准确率、召回率、F值以及MRR、MAP5个指标进行评价,根据相似问句的检索效果判断各词语相似度算法的优劣。关键词关键词:语义相似度;FAQ;VSM;HowNet中图分类号:TP314文献标识码:A文章编号文章编号:16727800(2013)0070057020引言词汇的语义相似度在自然语言处理领域有着不可替代的意义和作用。然而词汇之间的语义关系是非常复杂的,使用一个简单的数值很

2、难来度量词汇之间含义的相似程度。同样的一对词语,在一方面看可能非常相似,但是换个角度就可能相差甚远。所以,研究词语语义相似度离不开具体的应用背景,例如,在机器翻译应用中,词汇语义相似度用来衡量中文和英文文本中,中文单词与中文词语之间是否可替换;而在信息检索中,词汇语义相似度要体现用户查询所使用的关键词与用户实际查询目的在语义上是否一致。1词语相似度研究现状6词语相似度主要分为基于语义本体资源、基于统计算法和将前两者融合的混合技术3种方法:利用语义资源计算词语相似度也可称为基于本体(或知识库)的词语相似度算法,主要根据专家人工建立的语义网络计算相似度。利用统计

3、技术计算词语间语义相似度采用的是无监督的机器学习算法,分为基于大规模语料库和基于普通词典等方法。混合技术则结合统计技术和语义资源,取长补短,提高相似度计算的正确率。1.1基于语义资源的词语相似度算法近年来,一些诸如同义词词林、WordNet、知网这种大规模可量化的语言本体的诞生与发展,为进行真实文本的语义分析和理解提供了强有力的资源支持。特别是最近几年“知网”等语义资源不断丰富发展,中文语义研究方向逐渐增多。知网作为一个知识系统,是一个网而不是树,它主要反映概念的共性和个性,同时知网还着力反映概念之间和概念属性之间的各种关系。而词语DEF之间的路径距离则代表

4、了词汇语义的聚合程度。1.2基于统计的语义相似度算法基于统计的语义相似度方法建立在如果两个词语的含义相同或相近,则伴随它们同时出现的上下文也相同或相近。该方法主要以词语的上下文信息的概率分布作为相似度参考,计算的方法主要包含有向量空间模型(VSM)、词语共现信息、基于部分语法分析和改进的基于大规模语料库的方法。61.3基于混合技术的语义相似度算法基于大规模语料统计的算法相对专家手工建立的语义资源更加客观,但每种统计模型的创建都受语料库中数据质量的极大干扰,如不可避免的数据稀疏和数据噪声都直接影响最终的相似度计算结果。基于语义资源的算法执行起来简单有效,但语义

5、资源建设需要专业人士耗费人力物力,同时严重受建设者的主观意识影响。所以,一种语义与统计相融合的词语相似度算法应运而生,通过发挥两种算法各自的优势进行词汇间的语义相似度的计算。混合算法能够利用本体知识对稀疏数据进行扩充,从而在一定程度上解决数据稀疏的问题。2词语相似度应用实验FAQ即常见问题库,它一般作为自动问答系统的子部分存在。比如“百度知道”,每当用户输入一个问题时,首先可以查找与之相似的问题及其对应的答案。所以FAQ主要用来搜集用户提问频率较高的问题,并将它对应的答案一起进行存储。当用户需要输入一个新的查询问题时,FAQ首先可以在搜集存储的常见问题库中查

6、找与其相似的问题,如果找到了相同的问句,就6将该问句的相关答案抽取出来,并作为最终答案返回给用户。但是由于汉语表现形式的多样性,同样一个问题往往有多种表现形式,因此在FAQ中很难查找到一模一样的问句。在FAQ中进行问答行为的过程,实际是计算用户提交问句与常见问题库中问句间句子语义相似程度的过程。本文为实现FAQ查询功能,采用向量空间模型(VSM)计算用户提交问句与常见问题库中问题例句间的相似程度,而句子相似度的计算依赖于词汇语义之间的相似度,本文使用基于语义(知网)、基于统计(上下文点互信息)和语义统计相融合的相似度算法作为词汇语义的权值,通过VSM算法计算

7、句子间相似程度,并对其进行对比实验,最终根据FAQ中检索的相似问句效果来比较上述算法间的优劣。2.1基于向量空间模型的句子相似度算法向量空间模型(VectorSpaceModel,简称VSM)最初用在信息检索(IR)中用来对用户查询和语料库文档建模,如今已经得到了广泛的应用,如在句子或文档的表示中,就是通过句子中去掉停用词后剩下的有效词来构成向量空间,然后在该向量空间中将待计算的句子进行向量化,以两个向量夹角的余弦值作为句子之间的相似度度量。2.2实验方法本文选择从百度知道“生活类别”下数据内容较广的美容塑身类别中采集10个常见问题,组成领域问答库。3结语6

8、从第6个问题(S-6)“嘉和的智能止鼾器效果怎么样?

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。