基于句子相似度的文档复制检测算法研究

基于句子相似度的文档复制检测算法研究

ID:38113119

大小:434.93 KB

页数:4页

时间:2019-05-25

基于句子相似度的文档复制检测算法研究_第1页
基于句子相似度的文档复制检测算法研究_第2页
基于句子相似度的文档复制检测算法研究_第3页
基于句子相似度的文档复制检测算法研究_第4页
资源描述:

《基于句子相似度的文档复制检测算法研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、《现代图书情报技术》2007年第11期知识组织与知识管理总第157期基于句子相似度的文档复制检测算法研究秦新国(南京审计学院教务处南京210029)【摘要】提出一种基于句子相似度的文档复制检测技术,在抓住文档的全局特征的同时又兼顾文档的结构信息,克服以往检测算法两者不可兼顾的缺陷,提高检测精度。最后,给出该算法与其他算法检测结果的比较情况。实验证明,该算法是可行的。【关键词】文档复制检测句子相似度指纹【分类号】TP391ResearchontheCo

2、pyDetectionBasedontheSimilarityofSentencesQinXinguo(Dean’sOfficeofNanjingAuditCollege,Nanjing210029,China)【Abstract】Inthepaper,anewdocumentcopydetectionalgorithmbasedonthesimilarityofthesentencesisproposed.Inordertoimprovethedetectionaccuracy,theauthorsnotonlyemphasizeonthew

3、holedocument,butalsoonthestructureofthedocument.Intheend,experimentsandcomparisonaretakenbetweenthenewalgorithmandothertypicalalgorithms,theresultshowsthatitisfeasible.【Keywords】DocumentcopydetectionSentencesimilarityFingerprints1引言2基于句子相似度的检测算法文档复制又称文档剽窃,对它的研究从20世纪901995年美国

4、斯坦福大学数字实验室发明了用于文档年代开始兴起,很多相关产品相继问世。像COPS、复制检测的COPS原型系统。COPS以标点符号(如“。”、SCAM、CHECK、SSK、MDR等。至今可用于文档复制检测“;”、“?”等)为界,将文档分解成句子序列,然后,统计两的方法大致分为两种:基于词频统计的方法和基于字符篇文档中相同句子的数量,并将它与两篇文档中共有的[1]串比较的方法。基于词频统计的方法虽然较好地抓住句子数量的比值作为衡量两篇文档之间相似程度的依了文本的全局信息,对文本的内容进行粗粒度重排,不会据。文档相似度计算公式如下所示:影响检测的结果

5、,但是它忽略了文档的语义和结构信息,|S(A)∩S(B)|Sim(A,B)=(1)|S(A)∪S(B)|从而导致检测准确率下降;采用基于字符串比较的方法其中,A,B分别代表待测文档和候选文档,S(A)和S(B)分别表虽然较好地抓住了文本的局部信息,考虑了文档的语义[2]示文档A,B的指纹集合。和结构信息,但是在文档的特征提取上没有比较好的解COPS系统的对于大规模的文档复制的检测比较有决方案。且对文本块的局部修改比较敏感,容易造成漏效,计算速度也比较快,但是它不能发现句子局部重叠的[1]判。现象。为此,笔者对COPS算法进行了改进,提出了基于本

6、文将论述一种基于句子相似度的文档复制检测算句子相似度的文档复制检测算法,克服了COPS对于局部法,它以句子为基本单元对文档进行指纹提取,在统计句修改过于敏感的缺点,提高了检测精度。算法的核心思子相等的基础上,加入了句子相似性计算,结合了基于词想是:以句子为单位,对文档进行指纹提取,在文档相似频统计的方法和基于字符串比较的方法的优点,提高了度计算的过程中,不再仅仅关注文档中精确相等的句子,检测的准确率。还包括那些大部分内容重叠的句子。对内容相似的句子进行加权,如果两个句子完全重叠,那么它们的权值就设收稿日期:2007-09-18为1,如果两个句子

7、有90%相互重叠,那么它们的权值就收修改稿日期:2007-09-29设为0.9,以此类推,相似度越高,权值越大,相似度越低,·63·《现代图书情报技术》2007年第11期知识组织与知识管理总第157期权值越低。同时,设定句子相似度阈值,过滤那些相似度算法可以保证为句子生成唯一的签名,相同的句子在不较低的句子。最后,统计相似句子的数量,并把它与两篇同的时刻产生的签名也是一致的,既保证了指纹的可再文档共有的句子数量的比值作为文档的相似度。现性,又保证了指

8、纹的高分布性。2.1文本块的选择2.3相似性度量NamOhKang等对文本块的选择做了详细分析,认为(1)句子相似度的计算句子是组成文档和段落的基本单

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。