基于语义依存关系匹配的汉语句子相似度计算

基于语义依存关系匹配的汉语句子相似度计算

ID:5261104

大小:396.25 KB

页数:6页

时间:2017-12-07

基于语义依存关系匹配的汉语句子相似度计算_第1页
基于语义依存关系匹配的汉语句子相似度计算_第2页
基于语义依存关系匹配的汉语句子相似度计算_第3页
基于语义依存关系匹配的汉语句子相似度计算_第4页
基于语义依存关系匹配的汉语句子相似度计算_第5页
资源描述:

《基于语义依存关系匹配的汉语句子相似度计算》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第l2卷第l期深圳信息职业技术学院学报V01.12No.12014年3月JournalofShenzhenInstituteofInformationTechnologyMar.20l4文章编号:1672—6332(2014)01—0056—06【信息技术应用研究】基于语义依存关系匹配的汉语句子相似度计算汪卫明,梁东莺(深圳信息职业技术学院教学督导室,广东深圳518172)摘要:在中文信息处理中,句子相似度计算是一项基础而核心的研究课题,长期以来一直是人们研究的一个热点和难点。句子相似度计算在实际中有着广泛的应用,它的研究

2、状况直接决定着其他一些相关领域的研究进展,如信息检索的相似句子匹配、自动问答的问题匹配与答案抽取等,句子相似度计算都是非常重要的环节。本文提出了一种基于依存关系匹配的句子相似度计算方法,利用词语内在概念和词语相互依存关系计算句子之间的相似度。结果表明,该算法能显著提高返回结果的准确率。关键词:依存关系;关系匹配;词义相似度;依存关系相似度:自然语言处理中图分类号:TP391.2文献标识码:A词词林『4等较为成熟的语义词典资源,根据其中的1句子相似度的计算方法语义分类体系,采用一定的方式计算词语之间的目前,关于句子相似度的计

3、算方法种类很多,词义相似度,再通过词义相似度计算句子间的语义从总体上看主要有以下几类:基于词语共现统计的相似度‘。】。这种该种方法充分考虑了句子中每个方法、基于语义词典的方法、基于语法结构关系的词的内在语义信息,对于计算句子相似性有一定的方法以及基于词语排序的计算方法。国内学者从不提高。但由于词典的不全面和词义消歧准确率的限同方面f如向量空间模型、语义距离、语义依存、制,也给计算带来了一定的误差。公共短语等)来计算句子的相似度,下面分别介绍1.3基于公共短语的句子相似度计算相关研究人员采用的不同方法。在现有的几种计算方法中

4、,句子相似度计算的1.1基于词语共现的方法粒度一般是词语。在汉语句子中,词语是句子表达基于词语共现统计的方法是一种最基本的方的基本粒度,基于词语匹配的方法是一种自然的选法,将文档看成词语的集合,不需要对文本内容进择。但是,这种基于词语的计算方法视句子为词语行深层理解,只是通过词语共同的出现次数来计的组合,没有考虑句子内部的组合关系,因此无法算句子相似度¨。]。计算句子的相似度,等价于计算准确的反映句子的内在信息组合。基于公共短语的句子之间关键词的相似度,比较两个词之间的相似计算方法是在词语粒度的基础上,更看重词语的组度。有

5、些研究人员在此基础上作了改进,考虑不同合对句子相关性的区分【,然而这种分析方法受句词性的词语的重要性,设置了不同的权重j。但归子中词语表达选择的影响较大,意思相近的句子在根结底,这是一种词频统计的方法,只考虑词语的词语选择上有很小的变化相似度可能会差别很大,统计特性,没有考虑词语的内在含义,因此实际效通常只是在专业性较强的领域内比较有效。果较为一般。1.4基于语义依存的句子相似度计算1.2基于语义词典的方法依存句法是由法国语言学家L.Tesnier提出,对基于语义词典的方法主要是借助知网、同义计算语言学产生了深远的影响,通

6、过分析句子内部[收稿日期】2014—3一l5【基金项目】广东省自然科学基金($2011010006118),深圳市科技项目(JCYJ20130401095947222)。[作者简介1汗卫明(1982一),男(汉),安徽怀宁人.讲师,博士,主要研究方向:自然语言处理、信息检索、自动问答;E-mail:wangwiming@gmail.con第1期汪卫明,梁东莺:基于语义依存关系匹配的汉语句子相似度计算57成分之间的依存关系揭示其句法结构l。语义依存映了词语的具体含义,这些都对句子的准确理解提句法分析在一定程度上可以准确的反映

7、出句子中各高了帮助。成分之间的修饰关系,它可以获得长距离的搭配,并2.2依存关系筛选跟句子成分的物理位置无关。斯坦福大学自然语言句子语义依存关系分析可以得到词语之间的研究室的依存句法分析器和国内哈尔滨工业大学计相互关系,但不少关系对于句子的理解作用不大。算机科学与技术学院智能内容管理实验室的依存句在哈工大LTP依存句法标注体系中,共有主谓关系法分析器,准确率都能达到85%以上。(SBV)、动宾关系(VOB)、介宾关系(POB)、动补结语义依存关系能够比较准确的反映句子成分之构(CMP)等共计25种依存关系。间的搭配关系,李

8、彬、赵妍妍等人利用句子的关键一个句子中存在的各种语义关系其重要性和相依存关系进行相似度匹配,利用句子的语义依存关互问的关联程度不一,不能统一对待。在文章[1o]系进行句子理解n,但其中仅仅利用依存关系中的中,作者采用的诃l生分类的方法,按照依存关系中两词语相同与否计算依存关系相似度,无法真实准确个词语的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。