欢迎来到天天文库
浏览记录
ID:54017196
大小:411.48 KB
页数:11页
时间:2020-04-28
《抄袭论文识别研究与进展.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第45卷第1期大连理工大学学报Vol.45No.12005年1月JournalofDalianUniversityofTechnologyJan.2005=================================================================文章编号:1000-8608(2005)01-0050-08抄袭论文识别研究与进展史彦军1滕弘飞%2金博1(1.大连理工大学计算机科学与工程系辽宁大连116024;2.大连理工大学机械工程学院辽宁大连116024)摘要:抄袭论文识
2、别研究对于净化学术风气~保护知识产权具有重要意义.国外对于抄袭论文(英文)识别技术与系统的研究已有多年历史并取得一定进展而国内发表的相关文献尚少.综述了抄袭论文识别技术如数字指纹和词频统计等技术;介绍了相关识别系统如siff~COPS~dSCAM~KOALA和Check等;分析了各抄袭识别技术特点及应用范围.最后结合中文学术论文的特点从应用角度出发讨论了若干待解决的关键问题及发展趋势.关键词:学术论文;知识产权;剽窃;识别;数字指纹;词频中图分类号:TP319;TP393文献标识码:A目前在国内外学术著作抄袭
3、行为的严重性早从1976年Ottenstein[2]提出属性计数法及其危害已经引起人们的重视.美国学术信誉(attributecounting)检测和防止程序抄袭后就[1]在出现了很多形式化文本抄袭识别系统[3~4](AcademicIntegrity)研究机构的Donald并取得2001年5月对4500名学生(来自美国25所学校较好效果.而学术论文作为自然语言文本没有包括14所公立学校和11所私立学校)进行了调形式化语法约束语义具有歧义性较难进行抄袭查收回92%的有效答卷.调查表明:D72%的识别.直到19
4、91年才出现自然语言文本抄袭识学生承认在写作时有一次或多次的抄袭行为;别软件WordCheck[3]该软件由Richard采用关@97%的学生承认发表论文或写作业时曾经尝键词匹配算法开发此后抄袭识别研究取得了较试过抄袭;@15%的学生承认在发表论文时部大的进展.本文着重讨论属于自然语言文本的论分章节来自学术刊物或者网站而不注明出处;文抄袭识别问题.此外所指的文档特指自然语@90%的学生承认曾经使用互联网抄袭当然有言文本.些学生属于认识问题.目前互联网的高速发展为1基本概念抄袭者提供了先进手段搜索引擎(比如Go
5、ogle)的强劲搜索能力使抄袭论文更为快捷和方便.这抄袭识别技术属于复制检测(copy些学生将来有可能成为科研人员所以问题是严detection)技术中的一种.抄袭识别的思路是将重的并具国际性.因此除加强教育外抄袭论每一篇论文都看做是一系列Token(标记)的集文识别的研究已刻不容缓.合这些Token可以是字符~词~句~段落和章节抄袭论文识别研究是建立在对数字文档及文等.在其数学模型中这些Token的集合应该是本的分析处理基础上的.数字文档可分为自然语可计算的.假设通过某种提取算法从论文(文言文本(比如小说~
6、论文等)和形式语言文本(例档)a和b中得到各自Token集合A和B则通过如数据文件~计算机程序代码等).形式语言文本比较A和B可以确定a和b的关系:具有严格的形式化语法~清晰的语义表达容易分D如果A=B那么a是b的复本或全部抄析处理所以形式化语言文本的抄袭识别研究较袭.收稿日期:2003-10-25;修回日期:2004-12-11.基金项目:国家自然科学基金资助项目(50275019;60073036)派生研究.作者简介:史彦军(1973-)男博士生;滕弘飞%(1936-)男教授博士生导师E-mail:ten
7、ghfdlut.edu.cn.第1期史彦军等抄袭论文识别研究与进展51@如果ACB,A9B,那么a是b的子集或频率模型(relativefreguencymOdel)开发了新的部分抄袭.复制检测系统SCAM,对COPS系统进行了改根据上述关系,BrOder[5]讨论了两篇文档a进,从试验结果看,SCAM系统优于COPS系与b的相似关系(resemblance1(A,B))和包含关统[9~10].SCAM借鉴了信息检索技术中的向量空系(cOntainmentc(A,B)),把这两种关系归结为间模型(vectOr
8、spacemOdel)[11],采用了改进的余集合的求交集问题.假如从集合A和B中各自提弦法来计算文档相似度.后来Garcia-MOlina等取z个连续TOken序列(即z-shingling),则a和人还继续研究了分布式数据库环境下的文档复制[5]检测系统dSCAM[12]b的相似关系(resemblance)为,并讨论了基于Web的近似[13][14](A,z)(B,z)(near-replic
此文档下载收益归作者所有