查重技术及其在信息校验中的应用研究

查重技术及其在信息校验中的应用研究

ID:32735913

大小:2.44 MB

页数:64页

时间:2019-02-15

查重技术及其在信息校验中的应用研究_第1页
查重技术及其在信息校验中的应用研究_第2页
查重技术及其在信息校验中的应用研究_第3页
查重技术及其在信息校验中的应用研究_第4页
查重技术及其在信息校验中的应用研究_第5页
资源描述:

《查重技术及其在信息校验中的应用研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、第一章绪论第一节研究背景和意义随着社会信息化和网络技术的发展,知识产权保护、学术研究、信息检索和各种申报与统计分析等应用日渐重要,其数据库信息规模也在不断增长,如何校验这类应用系统数据库信息是否存在重复是其中的关键问题之一。本文以学科和论文类信息采集与评估应用系统为背景,重点研究以中文分词技术为基础的查重方法和技术,提出一种信息校验系统结构,在此基础上通过实验研究查重技术及其应用问题,实现了以词法和语法信息为辅助信息的文本重复与相似的查重算法,并对算法的性能进行了分析研究。查重(duplicatedetection),又称为副本检测,也称为剽窃

2、检测(plagiarismdetection)或者复制检测(copydetection),本文统称为查重技术。1.1.1课题的提出在社会信息化飞速发展的今天,教育信息化成为全社会关注的热点。自20世纪90年代以来,随着网络技术的飞速发展,internet快速发展,推动了面向社会的信息改革。所谓信息化是指将信息作为构成某一系统、某一领域的基本要素,并对该系统、该领域中信息的生成、分析、处理、传递和利用所进行的有意义活动的总称。教育信息化包括两层含义【1】:一是培养适应于信息化社会需要的人才,二是把信息技术手段有效应用于教育科研和教育管理。随着教育

3、信息化的日渐复杂,如何通过对迅速膨胀的信息进行有效管理来提高教育信息质量面临重大难题。而要保证能有效而又有力度的对信息进行管理,这就要求能对信息的准确性,关联性给予比较精确的定位,快速检测和排除重复的、冗余的知识信息。在此背景下,本文提出了一种信息校验系统结构,研究以中文分词技术为基础的查重方法和技术,对各省市,各地区采集上来的学科类和论文类信息进行处理,实现了以词法和语法信息为辅助信息的文本重复与相似的查重算法,并对算法的性能进行分析研究。第一章绪论1.1.2研究意义在教育信息化中,数据库中存储的信息量比较大,单纯靠人工处理,不仅耗费人力资源

4、,而且时效性比较差。要在大规模数据库中进行查重,不是一件简单的工作,其时空复杂度非常高,而且一个人对信息的拷贝和抄袭并不是简单的拷贝,会做相应的修改,比如调换词序、用同义词,造成文本之间近似或相似,而不是完全相同,所以在这种情况下,简单的字符串匹配算法难以发现文档之间的相似性。因此本文提出一种信息校验系统结构,利用查重技术,引入检索模型中的结构信息,节省了网络资源,人力、物力和时间,提高了评估效率。1.2.1研究内容第二节主要研究内容和难点(1)研究一般信息校验规则,信息的校验方式方法。查重技术是属于信息校验中的一种,本课题主要针对高维数据进行

5、信息校验。采用高维数据模型解决查重问题,即主要解决文本查重问题。(2)查重技术又被称为复制检测技术,这项技术分为两大类,一类是程序复制检测技术,另一类是自然语言复制检测技术。本文主要研究第二类查重技术,并和第一类研究技术进行对比。研究的主要目标是实现快速、高效的文本查重。(3)研究国内外所采用的查重方法及其主要算法,进行分析和介绍查重在不同领域中的应用和研究,对比这些算法之间的优缺点,选取适合本课题的查重算法。本课题主要是文本查重,对远程传递到服务器的文本进行查重处理,因此,适当快速的算法将能提高效率,提高准确性。(4)研究文本的预处理阶段。主

6、要为中文分词和文本特征提取。中文分词主要包括3种算法:机械分词法(基于字典、词库匹配的分词算法),语义分词法(基于词的频度统计算法)和人工智能法(基于知识理解的算法)。采取不同的分词算法将影响文本特征的提取。而特征提取对后续的查重工作将有重要影响。2第一章绪论(5)详细研究介绍两大类查重的具体算法,并且深入研究文本查重的具体算法,引入检索模型,将检索模型与选取的查重算法相结合。在本课题的查重子系统中引入所选取的查重算法。(6)对所选取的查重算法和本课题设计的查重子系统进行建模,选取适当数据集进行实验分析。1.2.2研究难点本文研究工作主要有以下

7、几个方面难点:第一,中文分词的研究。在三种中文分词算法中选取最适合于本课题的算法。恰当的过滤掉冗余信息,对于后期的特征提取是关键步骤。第二,如何进行特征提取。对高维数据进行信息校验的建模方式直接影响到查重的速度。所以采取什么样的方式进行特征提取也很重要。第三,查重需要针对的问题模型。是一对多查重,还是多对多查重。针对不同模型的查重所采取的方式将有所不同。第四,查重算法的复杂度。采取不同的查重算法,其所需要的时间复杂度和空间复杂度不相同,需要结合课题在这两方面进行权衡与取舍。第三节主要内容组织结构本文的研究重点是信息校验系统结构中的查重技术及其研

8、究。与实际背景相结合,在研究国内外查重技术发展趋势的基础上,设计一种信息校验系统结构。文中第一章主要介绍本课题的研究背景和重要意义,并阐述主要研究内容

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。