面向论文相似性检测的数据预处理研究

面向论文相似性检测的数据预处理研究

ID:6131798

大小:179.50 KB

页数:15页

时间:2018-01-04

面向论文相似性检测的数据预处理研究_第1页
面向论文相似性检测的数据预处理研究_第2页
面向论文相似性检测的数据预处理研究_第3页
面向论文相似性检测的数据预处理研究_第4页
面向论文相似性检测的数据预处理研究_第5页
资源描述:

《面向论文相似性检测的数据预处理研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、面向论文相似性检测的数据预处理研究刘伙玉1,3王东波21(南京大学信息管理学院江苏南京210023)2(南京农业大学信息科学技术学院江苏南京210095)3(江苏省数据工程与知识服务重点实验室江苏南京210023)摘要:【目的】探究论文相似性检测中数据预处理的数据问题及相关方法。【方法】对数据预处理中的数据清洗、数据集成、数据变换和数据归约进行概述;对数据进行了细致的分析,采用基于规则的方法、基于统计的方法、基于语义的方法进行预处理。【结果】揭示了论文相似性检测中原始数据存在的数据质量问题,并在此基础上给出了数据预处理模型。【结论】数据预处理有助于提高论文相似性检测结果

2、的准确性;有效结合基于规则、统计、语义的三种方法有助于提高数据预处理效果。关键词:相似性检测;抄袭检测;数据预处理;数据质量;数据清洗分类号:TP311.13ResearchandImplementationofDataPreprocessingOrientedtoPaperSimilarityDetectionLIUHuoyu1,3WANGDongbo21(SchoolofInformationManagement,NanjingUniversity,Nanjing210023,China)2(CollegeofInformationandTechnology,Nan

3、jingAgriculturalUniversity,Nanjing210095,China)3(JiangsuKeyLaboratoryofDataEngineeringandKnowledgeService,Nanjing210023,China)ABSTRACT:[Objective]Explorethedataissuesandmethodsofdatapreprocessingonpapersimilaritydetection.[Methods]Thisarticlefirstlysummarizesdatacleaning、dataintegration、

4、datatransformationanddatareduction;Itmakesadeepanalysistooriginaldata,andbrieflyintroducesthreedatapreprocessingmethods:Therule-basedmethod,thestatistics-basedmethodandsemantic-basedmethod.[Results]Therearemanydataproblemsintheoriginaldata,basedonwhichitdescribesthemodelofdatapreprocessi

5、ng.[Conclusions]Datapreprocessingcanhelptoimprovetheaccuracyofpapersimilaritydetection;usethethreemethodstogethercanimprovetheeffectofdatapreprocessing.KEYWORDS:SimilarityDetection;PlagiarismDetection;DataPreprocessing;DataQuality;DataCleaning1引言1.1研究背景与意义随着云计算、物联网等技术的兴起,以博客(微博)、社交网络为代表的

6、新型信息发布方式的不断涌现,计算机信息系统在各行各业的普及,数据种类和规模正以前所未有的速度在增长和累积[1]。大数据时代的到来,使得各行各业的决策也从“业务驱动”开始向“数据驱动”15转变,从海量的数据中获取潜在的有价值的信息也成为学术、商业、军事等领域关注的重中之重。然而纷繁复杂的数据往往都存在着大量质量问题,这将直接影响数据的信息服务质量;因此大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,都是保证分析结果的真实和有价值的必要手段。由此需要对海量数据中存在的粗糙的、不合时宜的数据进行预处理,将非清洁数据转化为高质量的符合要求的数据,这对于保证数据

7、分析结果的准确性和有价值性具有重要意义。1.2研究内容相似性检测(Similaritydetection)就是判断一个文件(包括文档、图像、音频、视频等文件)的内容与其他某个或多个文件是否相似并根据检测结果给出一个相似度的数值表示。按照其检测的对象,可以分为文档、图像、音频、视频相似性检测等。文档相似性检测又可分程序或代码相似性检测和自然语言文本相似性检测[2]。论文相似性检测属于自然语言相似性检测中的一种,就是判断一篇论文的内容是否与其他某篇或多篇论文相似,给出相似度结果,进而判断该论文是否抄袭、剽窃或复制于其他论文。由于学术论文中可能

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。