基于语义指纹海量文本快速相似检测算法探究

基于语义指纹海量文本快速相似检测算法探究

ID:12362693

大小:36.50 KB

页数:12页

时间:2018-07-16

基于语义指纹海量文本快速相似检测算法探究_第1页
基于语义指纹海量文本快速相似检测算法探究_第2页
基于语义指纹海量文本快速相似检测算法探究_第3页
基于语义指纹海量文本快速相似检测算法探究_第4页
基于语义指纹海量文本快速相似检测算法探究_第5页
资源描述:

《基于语义指纹海量文本快速相似检测算法探究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基于语义指纹海量文本快速相似检测算法探究  摘要:相似检测算法在海量文本信息处理中具有广泛的应用,尤其是Simhash算法因其指纹局部敏感特性、检测效率高在文本查重、网页检测等大规模数据处理中都十分常见。针对传统Simhash算法无法支持近义词、多义词等自然语言处理上的语义问题,通过对现有同义词扩展方案的研究,提出基于语义指纹的相似检测算法。在Simhash算法基础上,融入同义词扩展编码信息,生成文本语义指纹进行匹配检测,以提高文本相似度检测性能。另外,根据文本语义指纹建立多层分段索引,实现在海量文本信息中快速匹配出相似文档。通过与传统的Simhash算法进行实验对比

2、,体现出该方法在准确率、效率等方面的优势关键词:文本相似;语义指纹;Simhash;同义词扩展;互信息中图分类号:TP391文献标识码:A文章编号:1009-3044(2016)36-0175-03ResearchonFastDuplicateDetectionAlgorithmforMassiveDocumentsBasedonSemanticFingerprintsJIANGXue,WANZheng-jing,LIANGYan,TAOYi-zheng12(InstituteofComputerApplication,ChinaAcademyofEngineerin

3、gPhysics,Mianyang621900,China)Abstract:Simhashalgorithmiswidelyusedinlarge-scaledataprocessing,suchasdocumentduplicationdetectionorwebpage,becauseofitslocalsensitivecharacteristicsandhighefficiency.IntermsoftheproblemthattraditionalSimhashalgorithmcannotsupportthesemanticanalysisofnatur

4、allanguageprocessingsuchassynonymsorpolysemouswords,asimilaritydetectionalgorithmbasedonsemanticfingerprintisproposedbystudyingtheexistingsynonymexpansionscheme.OnthebasisofSimhashalgorithm,thesemanticfingerprintsaregeneratedbymatchingsynonymstoimprovetheperformanceoftextsimilaritydetec

5、tion.Inaddition,establishingmulti-levelsegmentindexesbasedonthetextsemanticfingerprintscanaggregationthesimilardocumentsinthemassdocumentdataquickly.ComparedwiththetraditionalSimhashalgorithm,thismethodshowstheadvantagesintermsofaccuracy,efficiencyandsoon.12Keywords:documentsimilarity;s

6、emanticfingerprint;simhash;synonymexpansion;mutualinformation1概述在�@个海量信息充斥的时代,信息的重复也随之增多,而其中一些相似文本的出现不仅不能丰富信息的价值,反而造成资源的浪费。因此,如何在大规模数据中快速检测出这些相似的文档是一项十分重要的技术。目前,国内、外在该领域的检测手段普遍都采用将文本哈希成数字指纹的技术。特别是Simhash算法,由于其检测准确率高,“降维”的思想使得检测速度快,同时还可以根据指纹距离反映文本内容的差异程度,因此受到广泛的应用。但由于中文语义的复杂性,包括同义词,一词多义等

7、问题,现有Simhash算法对于不同文档采用同义词作为关键字的相似检测性能并不是很理想。例如,两篇文档的关键词分别为:大规模、文档、去重、技术和海量、文本、查重、算法12基于上述原因,本文在现有Simhash算法的基础上,通过对其进行改进,提出一种基于同义词扩展编码的语义指纹生成方法,实现海量文本的快速相似检测。该方法利用基于同义词词典的语义扩展编码,通过Simhash函数映射生成固定长度的语义指纹,解决了其中普通哈希函数无法进行语义表达的问题,扩展了指纹的表达能力,提升了检测准确率。再根据指纹信息进行分段索引建立,减少了比对过程中的冗余操作,提高整

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。