欢迎来到天天文库
浏览记录
ID:5941864
大小:32.00 KB
页数:9页
时间:2017-12-29
《基于文本空间表示模型文本相似度计算探究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于文本空间表示模型文本相似度计算探究 〔摘要〕在分析现有文本表示法的基础之处,提出一种以段落、语句、词语为层次结构的文本表示方法——文本空间表示模型,并在此模型基础上探讨一种以文本段落为基本单位的相似文本计算算法,以实现相似文本检测目标。最后建立测试集并在测试集上执行检测实验,结果表明此方具有较好的相似文本发现效果。〔关键词〕文本相似度;文本空间表示模型;段落;算法〔中图分类号〕TP391.1〔文献标识码〕A〔文章编号〕1008-0821(2013)02-0021-039文本相似计算具有重要作用和广泛应用,它主要应用于基于著作权保护的文本相似检测、信息检索以及自动文本摘要等领域。在文
2、本复制检测方面,相似文本的检测可保护创作者的合法权益免受他人侵犯;在信息检索领域,相似文本的检测可以略去大量冗余信息;在自动文本摘要领域,主要为web页面自动生成摘要,便于web信息检索[1-2]。目前文本相似计算在信息检索以及自动文本摘要领域应用较为普及,在文本复制检测领域的主要实现方法是对整个文本进行词汇抽取,利用关键词顺序匹配的方法实现相似文本的检测[3-4]。对于一个大型数据集,当给定任意一个待检测文本,相似文本计算算法应该能够以较短的计算时间完成相似性检测任务,即:发现与该文本在语言表达上有一定相似度的文本,如果系统中事先存在这样的文本的话。基于算法执行时间和执行效率的考虑,本
3、研究将文本分解为段落,进一步将段落分解为语句,语句又分解为若干词语的集合,以此构成三维的文本空间表示模型。只要在语句和段落维度上发现被检测的两个文本存在相似处,则判定被检测对象存在相似之处。最后利用已有的测试集检测算法执行结果。1相似度判定的层次分析9从文本属性这个角度来看,文本相似检测可以从两个层面进行:内容相似和语言表达相似。对于任意一个文本而言,内容与语言表达并非相互独立的两个方面[5]。内容相似的文本,其语言表达形式并不一定就相似,例如以下两个例句:“大年三十晚上,街上冷冷清清,看不见一个人影”,“除夕夜晚,马路上空空荡荡,一片寂静的景象”,二者要表达的内容是一样的,但表达所使用
4、的语言词汇却又很大的不同;而语言表达相似的文本——包括词汇以及词汇间的相对次序相似,其内容在很大程度上则是相似的。现今搜索引擎采用同义词技术,如:“大年三十”和“除夕”、“夜晚”和“晚上”等,能将包含检索词的同义词或近义词的文本搜索出来,所以信息检索更多的是从内容相似这个角度进行相似文本计算;而基于著作权保护的文本相似检测则是从表达相似这个角度进行文本相似计算[6]。现今的著作权法只保护作者思想的外在表达形式,并不保护作品反映的思想或观点,因而本文将从表达相似这个角度探讨文本相似检测的思想和算法。9从文本结构这个角度来看,相似文本检测可以从多个层次进行:全文、段落、语句、词语。不同层次上
5、的相似度检测可用于不同的研究领域,如:判定词语间的相似度计算可用于机器翻译领域[7];判定词语与句子或段落之间,或者句子与段落之间的相似度计算可用于信息检索领域,例如:我们在检索信息时,通常输入的是若干个词语或者是一个句子,其将作为查询向量输入检索系统,并与文本库中的文本向量进行距离计算;段落与段落之间、全文与全文之间的相似度计算则主要应用于基于著作权保护的文本相似检测领域。上述3个检测层次的对象粒度依次递增,而处于较高粒度层次的相似度检测是建立在较低粒度层次相似度检测基础之上的。本研究对于文本相似的计算建立在段落与段落间的相似度计算基础之上。之所以选择段落为计算单位,除了上述因素外,还
6、因为发生全文相似的概率相比较发生段落相似的概率小得多,并且段落相似的计算结果完全能够包含全文相似的计算结果。而语句相似多数情况下则包含了正常的文献引用情况。2013年2月11第33卷第2期11现?代?情?报11JournalofModernInformation11Feb.,201311Vol.33No.22013年2月11第33卷第2期11基于文本空间表示模型的文本相似度计算研究11Feb.,201311Vol.33No.22文本的结构化表示法2.1现有的文本表示法在探讨文本相似性计算方法之前,首先回顾现有的文本表示方法。在信息检索领域内,文本的表示主要是采用向量空间模型表示法[8]。
7、其思想是:将某个搜索系统中索引项的集合T表示为:T={t0,t1,…ti,…tn-1},n为索引项的数目;文本集合D表示为:D={d0,d1,…,dm-1},m为文本的数目,di是文本集合D中的一个文本;则di可表示为:di={di,0,di,1,…,di,j,…di,n-1},其中文本向量中每个分量di,j为索引项tj在文本di中的权重。di,j的值由相应索引项tj是否在文本中出现以及它在文本中的词频tf与逆文本频率idf决定。该
此文档下载收益归作者所有