欢迎来到天天文库
浏览记录
ID:5187981
大小:33.50 KB
页数:9页
时间:2017-12-05
《基于ransac潜在语义研究专家库检索》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于RANSAC潜在语义研究专家库检索 摘要:随着信息技术的发展,对信息的检索和利用越来越显示出其重要的作用。在知识产权专家库的应用中,由于信息表达的差异化和碎片化,信息检索的准确率和有效率都有待提高。将潜在语义检索方法应用于专家库系统中,可以大大提高检索的准确率和有效率,并且可以避免数据库以及外围系统的重复更新,极大地节约了开发和维护的成本,具有十分重要的实际意义。该文结合RANSAC以及潜在语义检索算法给出了一种适用于专家库信息检索的搜索算法。实验结果表明,该方法在实践中取得了预期的效果。关键词:RANSAC;潜在语义分析;奇异值分解;聚类分
2、析中图分类号:TP393文献标识码:A文章编号:1009-3044(2014)05-1141-03ExpertDatabaseRetrievalBasedonRANSACandLSAAlgorithmCAIJia-cheng(SuzhouIntellectualPropertyRightsCenter,Suzhou215104,China)Abstract:Withthedevelopmentofinformationtechnologytheretrievalanduseofinformation9becomingmoreandmoreimpor
3、tant.Inthecaseofexpertsinintellectualpropertylibrary,becauseofthedifferentiationandfragmentationofinformationexpression,accuracyandefficiencyofinformationretrievalisnotgoodenoughforus.ByapplyingLSAtechnologytoMunicipalIntellectualPropertyexpertdatabaseretrievalsystemcanimprove
4、theaccuracyandefficiencyofretrievalresults.Itcanalsoavoidneedlessupdatingofdatabaseandretrievalsystemwhichgreatlysavethecostofdevelopmentandmaintenanceoftheretrievalsystem.InthispaperweintroducedanexpertdatabaseretrievalmethodbasedonRANSACandLSA.Theexperimentalresultsshowthatt
5、hismethodgetstheexpectedeffectiveness.Keywords:RANSAC;latentsemanticanalysis(LSA);singularvaluedecomposition(SVD);clusteranalysis1概述9近年来,随着互联网技术的发展,信息化已经渗透到企业与政府部门的各个重要环节。苏州知识产权专家库作为专家信息的存储与检索平台,为政府各部门进行知识产权专家信息检索,知识产权预警以及知识产权相关项目评审提供了统一化的信息搜集和过滤支持。在庞大的知识产权库中,由于录入人员、时间、方式的多样化,
6、特别是随着时间的推移会出现一些新兴的领域以及新兴名词,导致对专家所擅长的领域以及兴趣方向描述方式不尽相同。而对于专家库录入界面进行规约化的做法会大量耗费重复开发的人力物力,并且不能做到一劳永逸。而引入基于潜在语义的搜索方法,有助于对数据库中各种专家信息进行聚类和分析,并且提取统一化的关键词作为出口。从而无需对以前的数据进行重复的整理或者反复改变既有系统的录入方式并调整数据库结构,从而大大节约了管理与维护成本。本文,根据知识产权专家相关特征量大相似表述多,并且在实际应用中对搜索精度和效率的特别要求设计了基于层次化特征潜在语义空间的聚类方案来增加搜索准
7、确度,通过使用RANSAC方法提高了搜索速度。从而实现了对专家信息检索在精度和效率上的需求。2基于潜在语义的专家库检索算法2.1RANSAC算法9专家库中的数据特征,具有数量庞大,但是特征方向性明显,同时包含散乱噪声的特点。为了提高精确度与后期计算速度,该文使用了RANSAC算法对数据进行预处理。噪声环境下的鲁棒性估计算法,常用的有M-估计器、最小二乘和RANSAC(RandomSampleConsensus)方法。而由Fishler和Bolles在1981年提出的RANSAC算法被认为是最好、也是使用最广泛的方法,它甚至能处理50%噪声情况下的数
8、据[1]。RANSAC算法利用一小部分数据作为内点得到初始值,然后根据初始值统计数据集中所有的内点。这种估计方法使其能最大
此文档下载收益归作者所有