基于空间向量的电子作业相似度检测的设计与实现-论文.pdf

基于空间向量的电子作业相似度检测的设计与实现-论文.pdf

ID:53762559

大小:382.59 KB

页数:2页

时间:2020-04-24

基于空间向量的电子作业相似度检测的设计与实现-论文.pdf_第1页
基于空间向量的电子作业相似度检测的设计与实现-论文.pdf_第2页
资源描述:

《基于空间向量的电子作业相似度检测的设计与实现-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、⋯一建⋯一皇⋯一照JlANeO黼PUTER基于空间向量的电子作业相似度检测的设计与实现张星,刘帅(河南城建学院计算机科学与工程学院河南平顶山467064)【摘要】:随着网络的普及及电子作业本身的特点,学生作业极易出现抄袭现象,但目前多数的网络教学平台在学生作业这一功能中只提供在线提交的功能,但对学生所提交的作业是否存在抄袭却不做检测。为提高学业的质量,降低抄袭率,利用空间向量模型,对学生所提交上来的作业进行相似度检测,并绘制相似度分布图,从而使教师的工作效率得以提高同时杜绝抄袭现象。【关键字】:向量

2、空间模型;相似度检测;文本检测1、引言行分词,既能充分发挥基于向量空间检测的优点,又随着网络的发展,网络教学平台的使用也越来越能提高检测的精确度。广泛,但目前大多数网络教学平台在学生作业收集与2、空间向量批改方面做的还不够,大多数只做到了在线上传,但向量空问模型(VSM:VectorSpaceModel1由Sahon为上传的作业却并不做任何检测。电子作业由于易于等人于20世纪70年代提出,并成功地应用于著名的拷贝,学生在提交电子作业时,经常会出现抄袭现象,SMART文本检索系统。VSM把对文本内容的

3、处理简而抄袭的方法有全文抄袭、部分抄袭、句子替换等。人化为向量空间中的向量运算,并且它以空问上的相似工进行抄袭检测很费时费力,尤其是在作业较多的情度表达语义的相似度,直观易懂。当文档被表示为文档况下。因此,网络教学平台就迫切需要能够自动进行空间的向量,就可以通过计算向量之间的相似性来度相似度检测。量文档间的相似性。目前用于文档拷贝检测的方法主要分为三种:基在VSM中,将文档看成是相互独立的词条组(T,于词频统计的检测算法、基于匹配统计的检测算法和T2,T,,⋯,Tn)构成,对于每一个词条,I1i,根

4、据其在文档基于句子相似度的检测算法。文献[1】利用序列匹配算中的重要程度赋予一定权值Wi,并将(T,T2,1r3⋯Tn)法计算公共子序列的长度,得到每组作业两两之间的看成是一个n维坐标系中的坐标轴,(W,W,W,⋯,相似度,并在此基础上进行聚类分析。文献[2]着重分wn)为对应的坐标值。这样由(T,T2,1r3,⋯,Tn)分解得析了文档指纹技术,并采用信息隐藏技术的检查方法,到的正交词条矢量组就构成了一个文档向量空间I1J。对Hash文档指纹鉴别算法进行改进设计。文献[3】是3、相似度检测基于数据库

5、注册机制,教师需要把作业全部上传到数在VSM中,使用最广泛也是效果最好的方法就据库中,再把作业两两为一组,以句子为单位,对文档是TF—IDF方法,在该方法中文档的相似度可用向量进行指纹提取,然后,统计两篇文档中相似句子的数量,之间的夹角或者距离来表示,夹角或者距离越小,相并以它与两篇文档句子总量的比值作为衡量两篇文似度越高。TF—IDF方法有很多公式,下面是一个常用档之间相似程度的依据。的TF—IDF公式,其中N为所有文档的数目,ni为含文本相似度检测中常用的是向量空间模型的方有词条ti的文档数目。

6、^,法。向量空间模型能对文本的全局信息有较好的把=()×log()⋯\1/握,即使对文本内容进行粗粒度排列也不会影响到检-tf,.(d)log(~N+0测结果,但因为是以单词为单位可能会对检测结果造.1)()=了——===(2)成不准确。本文在向量空间模型的基础上,结合基于1/∑(())×log(+0.1)句子的相似度检测方法,将词条以句子元素为单位进2014年第2期l福建电脑·125·

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。