资源描述:
《数据依赖的多索引哈希算法_马艳萍_姬光荣_邹海林_谢洪涛》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、2015年8月西安电子科技大学学报(自然科学版)Aug.2015第42卷第4期JOURNALOFXIDIANUNIVERSITYVol.42No.4doi:10.3969/j.issn.1001-2400.2015.04.026数据依赖的多索引哈希算法马艳萍1,2,姬光荣1,邹海林2,谢洪涛3(1.中国海洋大学信息科学与工程学院,山东青岛266100;2.鲁东大学信息与电气工程学院,山东烟台2640253.中国科学院信息工程研究所信息内容安全技术国家工程实验室,北京,100093)摘要:多索引哈希是目前使用最
2、广泛的针对二进制码的索引算法.由于多索引哈希基于数据集中的二进制码呈均匀分布这一假设,不能有效处理非均匀分布的数据集.针对这一问题,提出数据依赖的多索引哈希算法.首先把二进制码划分为多个连续不重合的子串,并通过计算二进制码每位之间的相关性为每一个子串学习得到自适应投影向量.在为每个子串建立哈希表时,使用投影向量对子串进行投影从而得到哈希表中的下标.采用自适应投影的方法可以使得哈希表中的元素接近于均匀分布,进而提升查询速度.此外,提出一个基于熵的分布度量方法,以评价哈希表中数据元素的分布情况.在大规模数据集上的
3、实验表明,与多索引哈希算法相比数据依赖的多索引哈希算法可以使查询速度提升36.9%–87.4%.关键词:最近邻查询;二进制码;索引;多索引哈希中图分类号:TP183文献标识码:A文章编号:1001-2400(2015)04-0177-07Data-orientedmulti-indexHashing1,2123MAYanping,JIGuangrong,ZOUHailin,XIEHongtao1(SchoolofInformationScienceandEngineering,OceanUniversityo
4、fChina,Qingdao,2661002SchololofInformationandElectricalEngineering,LudongUniversity,Yantai,2640253InstituteofInformationEngineering,ChineseAcademyofSciences,Beijing,100093)Abstract:Multi-indexhashing(MIH)isthestate-of-the-artmethodforindexingbinarycodes.How
5、ever,MIHisbasedonthedatasetcodesuniformdistributionassumption,andwillloseefficiencyindealingwithnon-uniformlydistributedcodes.Inthispaper,weproposeadata-orientedmulti-indexhashingmethod.Wefirstcomputethecorrelationsbetweenbitsandlearnadaptiveprojectionvecto
6、rforeachbinarysubstring.Then,insteadofusingsubstringsasdirectindicesintohashtables,weprojectthemwithcorrespondingprojectionvectorstogeneratenewindices.Withadaptiveprojection,theindicesineachhashtablearenearuniformlydistributed.Besides,weputforwardanentropyb
7、asedmeasurementtoevaluatethedistributionofdataitemsineachhashtable.ExperimentsconductedonreferencelargescaledatasetsshowthatcomparedtoMIHthetimeperformanceofourmethodcanbeimprovedby36.9%–87.4%.KeyWords:nearestneighborsearch;binarycodes;indexing;multi-indexH
8、ashing[1][14][2][15][3]在大规模的数据集中进行最近邻查询是图像检索、计算机视觉、目标检测等领域的一个基础工作.由于二进制码特征计算快速、节省存储空间、特征之间的匹配操作仅需要几个机器指令就能完成,[4][5][6]目前越来越多的研究采用二进制码特征来描述视觉内容.在一个具有百万规模的二进制码数据集中查[7]找一个查询的最近邻可以在不到一秒的时间内完成.虽然二进制码之间的海明距离