资源描述:
《学术论文抄袭检测方法研究综述》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第15卷第1期湖南工业大学学报(社会科学版)Vol.15No.12010年2月JOURNALOFHUNANUNIVERSITYOFTECHNOLOGYSOCIALSCIENCEEDITIONFeb.2010学术论文抄袭检测方法研究综述①赵俊杰(安徽财经大学成人教育学院,安徽蚌埠233061)摘要:从学术论文抄袭的现象和危害出发,分析归纳了学术论文抄袭的主要类型及形式。接着从论点抄袭、文本抄袭、算法与程序代码抄袭和图片与公式抄袭等几个方面,综述了近阶段所采用的主要抄袭检测方法。最后概述了解决论文抄袭检测问题的重要意义,并对如何防止学术论文抄袭提出建议
2、。关键词:抄袭检测;文本相似度;词频统计;数字指纹;图像匹配中图分类号:G256.22文献标识码:A文章编号:1674-117X(2010)01-0157-03DetectiveWaysagainstAcademicPlagiarismZHAOJunjie(CollegeofAdultEducation,AnhuiUniversityofFinanceandEconomics,BengbuAnhui233061,China)Abstract:Themaintypesofacademicplagiarismandtheformsareanalyzed
3、andsummarizedstartingfrommentioningthephenomenontotheharmdone.Recentlyadoptedmaindetectivewaysagainstplagiarismaresummedupfromtheaspectsoftheme,text,calculation,programcode,pictureandformulaplagiarisms.Finallytheimportantsignificanceofplagiarismdetectionproblemsolvingismention
4、edandsuggestionsastohowtopreventacademicplagiarismareputforward.Keywords:plagiarismdetection;similarityoftexts;word2frequencystatistics;digitalfingerprinting,picturematching自20世纪90年代学术界提出反对学术腐败以的学术论文抄袭形式其检测方法也必然不同,下面根来,被揭露出来的学术腐败事件最多的是学术造假,据不同的论文抄袭形式介绍其常用的判定方法。其中又以学术著作和论文的抄袭为最
5、。抄袭行为不一、论点抄袭的判定方法仅侵害了作者的权益,而且严重破坏了学术发展的抄袭他人论文的核心思想、观点或创意及分析生态环境,损害了学术共同体的尊严,还影响到我国科研水平和科技竞争力的提高,损害了国家和公众与论证方法,有可能不是整篇整段地抄袭,抄袭的数的利益。论文抄袭的类型主要分为两种情况:一是量也可能不超过1/10,因此不能简单以抄袭的量加论点抄袭,这种情况是从质的角度来考虑,主要是看以衡量。这种抄袭一般难以直接判定,论点抄袭一是否引用他人作品作为自己作品的主要部分或实质般比较隐蔽,难以直接检测出来,可行的方法是先借部分。例如抄袭他人的创意、主
6、要的观点以及核心助某种模式识别方法,在怀疑抄袭论文与相似论文思想、分析论证方法等;二是内容抄袭,主要是从量,之间进行比较,如果相似度超过一定的域值,则给出有时也结合质的角度来考虑,例如抄袭论文的文字、可能抄袭的初步判定。由于可能会出现误判,所以图片、表格、数据、模型与公式等具体内容。对于不同还需要进一步进行人工判定。①收稿日期:2009-07-05基金项目:教育部社科研究基金青年项目“文本挖掘技术在论文抄袭判定中的应用研究”(07JC870006);安徽财经大学教研重点项目“学生论文抄袭的检测防范研究”(ACJYZD200914)作者简介:赵俊杰(
7、1973-),男,安徽宿州人,安徽财经大学讲师,硕士,主要从事数据挖掘与情报检索研究。157湖南工业大学学报(社会科学版)2010年第1期(总第72期)晋耀红等人提出了基于语境框架的文本相似度制和扩散问题而开发的一个基于注册的复制监测原[1]计算。语境框架是一个三维的语义描述,它把文型系统。此系统通过对数字正文的多层次、多粒度本内容抽象成领域(静态范畴)、情景(动态描述)、表示来构建基于统计的重叠度度量算法,取得了较背景(褒贬、参照等)三个侧面。在语境框架的基础好的效果。上,计算文本的相似度。算法从概念层面入手,充分金博、史彦军等提出的利用知网的知
8、识结构及[5]考虑了文本的领域和对象的语义角色对相似度的影其知识描述语言的语法进行相似度计算的方法。响,重点针对文本中的歧