基于文本空间表示模型的文本相似度计算研究

基于文本空间表示模型的文本相似度计算研究

ID:24021199

大小:50.50 KB

页数:4页

时间:2018-11-12

基于文本空间表示模型的文本相似度计算研究_第1页
基于文本空间表示模型的文本相似度计算研究_第2页
基于文本空间表示模型的文本相似度计算研究_第3页
基于文本空间表示模型的文本相似度计算研究_第4页
资源描述:

《基于文本空间表示模型的文本相似度计算研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于文本空间表示模型的文本相似度计算研究〔〕在分析现有文本表示法的基础之处,提出一种以段落、语句、词语为层次结构的文本表示方法——文本空间表示模型,并在此模型基础上探讨一种以文本段落为基本单位的相似文本计算算法,以实现相似文本检测目标。最后建立测试集并在测试集上执行检测实验,结果表明此方具有较好的相似文本发现效果。  〔关键词〕文本相似度;文本空间表示模型;段落;算法  〔〕TP391.1〔〕A〔〕1008-0821(2013)02-0021-03  文本相似计算具有重要作用和广泛应用,它主要应用于基于著作权保护的文本相似

2、检测、信息检索以及自动文本等领域。在文本复制检测方面,相似文本的检测可保护创的合法权益免受他人侵犯;在信息检索领域,相似文本的检测可以略去大量冗余信息;在自动文本领域,主要为ation11Feb.,201311Vol.33No.22013年2月11第33卷第2期11基于文本空间表示模型的文本相似度计算研究11Feb.,201311Vol.33No.22文本的结构化表示法  2.1现有的文本表示法  在探讨文本相似性计算方法之前,首先回顾现有的文本表示方法。在信息检索领域内,文本的表示主要是采用向量空间模型表示法[8]。其思

3、想是:将某个搜索〔〕在分析现有文本表示法的基础之处,提出一种以段落、语句、词语为层次结构的文本表示方法——文本空间表示模型,并在此模型基础上探讨一种以文本段落为基本单位的相似文本计算算法,以实现相似文本检测目标。最后建立测试集并在测试集上执行检测实验,结果表明此方具有较好的相似文本发现效果。  〔关键词〕文本相似度;文本空间表示模型;段落;算法  〔〕TP391.1〔〕A〔〕1008-0821(2013)02-0021-03  文本相似计算具有重要作用和广泛应用,它主要应用于基于著作权保护的文本相似检测、信息检索以及自动文

4、本等领域。在文本复制检测方面,相似文本的检测可保护创的合法权益免受他人侵犯;在信息检索领域,相似文本的检测可以略去大量冗余信息;在自动文本领域,主要为ation11Feb.,201311Vol.33No.22013年2月11第33卷第2期11基于文本空间表示模型的文本相似度计算研究11Feb.,201311Vol.33No.22文本的结构化表示法  2.1现有的文本表示法  在探讨文本相似性计算方法之前,首先回顾现有的文本表示方法。在信息检索领域内,文本的表示主要是采用向量空间模型表示法[8]。其思想是:将某个搜索系统中索

5、引项的集合T表示为:T={t0,t1,…ti,…tn-1},n为索引项的数目;文本集合D表示为:D={d0,d1,…,dm-1},m为文本的数目,di是文本集合D中的一个文本;则di可表示为:di={di,0,di,1,…,di,j,…di,n-1},其中文本向量中每个分量di,j为索引项tj在文本di中的权重。di,j的值由相应索引项tj是否在文本中出现以及它在文本中的词频tf与逆文本频率idf决定。该表示法运用于相似性计算中存在的问题是:一是文本向量的维度过高,且包含大量值为0的分量;二是文本向量中不包含与文本段落结构

6、相关的任何信息。基于上述问题,本研究提出三维的文本空间表示模型法。  2.2文本的空间表示模型  通过分析文本的组成结构,我们可以知道文本的基本组成单位是段落,而段落的组成单位是句子,句子的组成单位则是词语,如图1所示。  从图2中可以看出:一个文本可以表示为一个三维空间模型,三维空间中的每一个结点在文本中均有一个词语与之对应,结点在空间中的位置其实包含了相应词语在文本中的位置信息,即:该词语在文本中所处的段落、句子,以及在句子中的位置。每个段落可表示为一个二维向量平面pi,i∈{1,m};平面中的每一个列向量si,i∈{

7、1,n},对应于该段中相应的一个句子;句子si中包含若干个词语ti,i∈{1,k}。由此可见,组成三维空间模型的3个分量分别是:段落(P)、句子(S)和词语(T)。  3文本的相似度计算算法  3.1算法描述  现有任意两个文本d1、d2,其表示如下:  矩阵的每一个列向量就是段落p1i中的一个句子si,si中元素t1i是该句中的一个词语,同样段落p2i也可表示成上述形式,这里就不再列出。矩阵中元素t1i的取值方式与信息检索系统中有所不同,信息检索系统为每个索引词取一个与词频相关的量化值,这里将t1i的值设定如下:该词语在

8、索引系统中的索引号,能够唯一标识该词语的一个编号或标识符。  令(3)式中任意一项p1ip2i=(p1i)T×p2i,则由式(4)、(5)可以得到表达式(7):  当s11s21的值为0,则认定s11与s21相似,当值为1,则认定s11与s21不相似。设ζ为语句相似度阈值,ζ∈(0,1),ζ的取值因判定

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。