欢迎来到天天文库
浏览记录
ID:4128928
大小:269.43 KB
页数:4页
时间:2017-11-29
《论文抄袭检测中特征选择》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、2009年第9期计算机系统应用论文抄袭检测中特征选择①FeatureSelectioninPlagiarismDetectionofAcademicDissertation赵俊杰(安徽财经大学成人教育学院安徽蚌埠233061)摘要:选取多少个最佳特征以及采用什么评估函数,针对不同的问题选取策略也有所不同。针对论文抄袭检测问题,如何确定特征选择数量和选择评估函数是文章研究的目的。在分析论文抄袭的主要形式和手段基础上,针对文本内容抄袭,阐述了文本特征表示的主要方法和特征选择常用策略,最后对实验结果进行分析,得出基本结论。关键词:抄袭检测特征选择文本表示向量
2、空间模型1引言否则为0。用户查询表示为逻辑运算符(与、或、非)论文抄袭的形式和手段多种多样,具体包括抄袭连接起来的布尔表达式,用检索状态值(RSV)来度量文观点、文字、图像、表格、数据、模型与公式等。在档和用户查询之间的相似度,文档与查询的匹配规则所曝光的案例中,文本抄袭的情况占大多数,因此本遵循布尔运算的法则。如果查询式的值为1,择RSV文主要研究论文抄袭中文本内容抄袭的检测问题。从值为1,否则为0。所有RSV为1的文档与查询式相一篇文档的语法层次来看,它是由词、短语、句子和关,所有RSV为0的文档则与查询式不相关,因此布段落所构成的。所以,这些要素
3、都可以作为文档的特尔模型是基于二值评价体系的。征。但一般情况下,基于句子和段落层次的文本特征2.2向量空间模型表示应用不多,常用的文档特征有词和短语。由于词向量空间模型(VSM)~P使用向量表示文本。在向和短语的数量太大,直接比较效率太低;且词语之间量空间模型中,文本的内容由一些特征来表达,一般存在一定的关系,不同的词语所占的权重也不同,因由文本所含有的基本语言单位(字、词、词组或短语)此,文本特征选择的策略显得十分重要。来表示,即文本可以表示为Document=D(tl,t2,⋯,t),其中ti表示各个项,都被赋予一个权重W,以表2文本的特征表示示这
4、个特征项在该文本中的重要程度,权重一般都以文本表示是把半结构化或非结构化的文本数据转特征项的频率为基础进行计算的。目前,计算主要采换为可供计算机处理的机构化数据【1l。所谓特征表示用TF—IDF公式,其中TF是特征项在文本中的绝对频就是以一定的特征项(如词条或描述)来代表文本信息,率,IDF表示特征项在文本中的文本内频数。这样文特征表示模型有多种,常用的有布尔逻辑型、向量空本就可以表示为:,;f2,w2;··;,;··;,),可以间型和概率型等。下面简单介绍这三种模型。简记为D=D(wl。w2,⋯,w)。两个文本D1和D2之间2.1布尔模型的相关程度常
5、用它们的相似度SlM(D1,D2)来度量。布尔模型【2】是以集合论和布尔代数为理论基础的在向量空间模型下,一般借助向量之间的某种距离来一个非常简单的检索模型,它基于特征项的严格匹配。表示文本问的相似度。向量空间模型是最简便、最高它用关键宇组合来表示文本信息,关键词的权重为布效的文本表示模型之一,本文的研究即采用向量空间尔变量,如果某关键字在文本中出现,其取值为1,模型。①基金项目:教育部社科研究基金青年项目(07JC870006);安徽财经大学教研重点项I~(ACJYZD200914)收稿时间:2009-02-19ResearchandDevelopm
6、ent研究开发101计算机系统应用2009年第9期2.3概率模型{cjj1表示目标空间的类集C,W为特征词条,其中布尔模型和向量空间模型都假设关键词之间是相p(w)为词条出现的概率,表示词条w不出现,p(ci)互独立(即相互正交)的,这与实际情况不符。Rober-为i类值的出现概率,p(CiAW)为词条出现时属于第itson和SparkJones提出的概率模型t31~lJ考虑了关键类的条件概率。词之间、关键词和文档之间内在联系,以贝叶斯为理3.2互信息论基础,利用它们的概率相依性进行信息检索。概率互信息【sl是普遍应用在相关词统计语言建模中,模型基于提
7、问关键词在相关和不相关文档中的分布。如果用A来表示词条t且属于类别C的文档频率,B这是采用关键词的权重来表示的,这样每个查询的文表示为包含词条t但是不属于类别C的文档频率,C档就按照符合提问的关键词权重之和进行排序。常用表示属于类别C但是不含词条t的文档频率,N表示的二值独立检索模型是一种实现简单并且效果较好的整个训练语料库中的文档总数,词条t与类别C之间概率模型。的互信息可以下面公式计算:3特征选择策略MI(c,=log(2)构成文本的词汇,数量是相当大的,因此表示文本的向量空间的维数也相当大,可以达到几万维,当t与c相互独立时,Ml(c,t)自然为
8、0。如果因此我们需要进行维数压缩的工作。目前对文档特训练集有m个类,对于每个词条W都有m个互征
此文档下载收益归作者所有