一种高效防抄袭由粗到细框架

一种高效防抄袭由粗到细框架

ID:21843960

大小:1.80 MB

页数:33页

时间:2018-10-25

一种高效防抄袭由粗到细框架_第1页
一种高效防抄袭由粗到细框架_第2页
一种高效防抄袭由粗到细框架_第3页
一种高效防抄袭由粗到细框架_第4页
一种高效防抄袭由粗到细框架_第5页
资源描述:

《一种高效防抄袭由粗到细框架》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、Acoarse-to-fineframeworktoefficientlythwartplagiarism一种高效防抄袭的由粗到细的框架HaijunZhang,TommyW.S.ChownDepartmentofElectronicEngineering,CityUniversityofHongKong,83TatCheeAvenue,Kowloon,HongKongPatternRecognition44(2011)471–487摘要本文呈现了一个使用多级匹配方法的语义框架用以防止抄袭(plagiari

2、smdetectionPD)。多级结构,即使用“文档—段落—句子”的结构来描述一个文档。在文档和段落级,我们使用传统的降维技术将高维直方图映射到潜在的语义空间。使用EMD(EarthMover’sDistance)来代替完全匹配方法来检索相关文档可以显著地缩小搜索范围。设计了两个抄袭检测算法,并将其用于有效的标出可疑的抄袭文档源。我们执行了大量的实验性验证包括文档检索、抄袭检测、有效参数和实验性系统响应的研究,结果证实了我们所提出的方法在执行抄袭检测上所具有的精确性和计算有效性。Keywords:Doc

3、umentretrieval,Plagiarismdetection,EMD,Multilevelmatching关键字:文档检索抄袭检测EMD多级匹配1.介绍从餐馆预约到技术研究,因特网已经毋容置疑地成为了我们生活中不可缺少的一部分。网络在线的流行却向文本知识产权提出一个严峻的挑战,因为因特网和计算机技术能轻易地将知识信息传遍整个世界。人们可以轻松地搜索、复制、下载和重用在线资源。最令人感到罪恶昭彰的抄袭行为就是从其他的文章资源不加以任何修改地复制过来。但是这种类型的抄袭是很容易用抄袭检测系统(PD)

4、鉴别出来的。稍不明显的例子是抄袭者将比人的文章嵌入到他们的文中,他们企图通过对已有的文章作词或句子的替换或从外源粘贴一些词语以躲开抄袭检测系统。剪切-粘贴型抄袭检测现在在教育系统里已经受到了持续的关注。高效率的抄袭检测系统现在面临的一个难题就是对源搜索的迅速查询响应,因为抄袭者可以抄袭因特网上的文档有数百万个,而每篇文档通常包含的词也有数千个。现有的反抄袭技术包括指纹识别——专为合作抄袭而开发的技术,ranking技术——为文档检索而开发。Hoad和Zobel[1]研究了这些技术并证明了ranking方

5、法比指纹识别方法更优。Chowetal.[2]通过使用ranking技术也得到了不错的结果。沿着这条线索,文本将呈现使用多级匹配的(multilevelmatchingMLM)由粗到细框架的抄袭检测技术,所提出的方法具有一些给力的特点包括通用性、健壮性和高效性。这些特点具体描述如下:l通用性是指文档的多级表示和它的编码特性。我们使用文档-段落-句子的结构来形成文档的由粗到细的表示。在文档和段落级别,使用传统的降维工具——主成分分析(principalcomponentanalysisPCA)来获取潜在的

6、语义主题,除了PCA,任何其它的潜在语义分析和降维技术都可以并入这个方案。l由于使用签名匹配,所提出的系统是健壮的。通过牵涉特征每部分的长度和词条的直方图来构造文档和段落级别的签名。句子的特征化是通过使用每个特征的索引数,这些特征对应于词汇表里对应的词。在签名编码中,我们不考虑特征在句子里的顺序,因为抄袭致力于替换每个句子里的词或重组每个句子的结构来躲过PD系统。l文档的建模及应用显著地集中于计算,因为它们至少包含数千个词。我们提出的系统基于深度匹配,使用由粗到细的策略来过滤不必要的搜索域。这种剪枝能力

7、给我们带来计算高效性。因此我们所提出的方法适用于大数据集和实际的在线应用。本文的主要研究成果有三点。首先,我们提出了文档的多级表示和编码特征;第二,对于相关文档的检索,我们深入研究了MLM方法,即基于直方图的MLM(MLMH)和基于签名的MLM(MLMS);第三,实现了两个检测算法,通过设置合适的条件,在多级匹配之前就可以减掉期望不大的路径。本文下面的章节安排如下:第二部分对文档建模及其应用作简要的综述,同时分别对PD、文档分类(DocumentCategorization)和文档识别(DRDocume

8、ntRecognition)的关系作出讨论;第三部分介绍多级文档的表示、文档分割、降维和特征编码,文档的分割使用HTML标签;我们在第四部分讨论基于直方图和签名的不同文档检索方法,而在第五部分,我们则实现了两种检测算法;接着,在第六部分描述了我们所执行的大量实验性验证;第七部分,基于观察的结果,列出从实际角度对系统框架提出建议;第八部分给出最终结论和下一步工作的提议,并结束本文。2.相关研究这部分简要地综述了先前的工作,因为部分地包含了To

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。