应用分布式索引提高海量数据查询性能①

应用分布式索引提高海量数据查询性能①

ID:36625481

大小:669.61 KB

页数:3页

时间:2019-05-13

应用分布式索引提高海量数据查询性能①_第1页
应用分布式索引提高海量数据查询性能①_第2页
应用分布式索引提高海量数据查询性能①_第3页
资源描述:

《应用分布式索引提高海量数据查询性能①》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、2014年第23卷第6期http://www.c-s-a.org.cn计算机系统应用①应用分布式索引提高海量数据查询性能窦晓峰,陈胜,王熠航,麦联叨,由建宏(亚信联创联通事业部,北京100086)摘要:在电信领域的精准化营销、即席查询业务中,存在着大量针对一张宽表或几张宽表(超过50字段)的随机查询场景.传统处理模式(直接查询数据库)在数据量不大(<1000万)时,查询响应时间可优化到几秒至数十秒级,而当数据量到达几千万、上亿甚至十亿记录以上时,此处理模式无论如何优化或更改索引机制,都无法满足秒级并发查询要求.新的处理模式通过引入分布式Solr索引层解决上述问题.索引层预先对数

2、据库记录建立索引,查询不再作用于数据库而直接查询索引层,如此,可大幅提高查询性能.经过对两种处理模式的对比验证,在相同环境下,数据量到达5000万,每秒20并发访问的宽表查询场景,传统处理模式的查询全部超时失败,而使用分布式索引层的查询可以在2秒以内返回,查询全部成功.关键词:精准化营销;即席查询;海量数据;大数据;查询;Solr集群;分布式索引;分片;B-TreeImproveBigDataQueryPerformancebyApplyingDistributedIndexingDOUXiao-Feng,CHENSheng,WANGYi-Hang,MAILian-Tao,YO

3、UJian-Hong(DepartmentofChinaUnicom,Asiainfo-Linkage,Beijing100086,China)Abstract:Inthefieldoftelecommunicationsprecisionmarketingandad-hocquery,therearealotofrandomqueriesscenariosononeormorewide-tables(whichhavemorethan50fields).Inthetraditionalsystem(thequeriesareperformedonthedatabasedire

4、ctly),thequeryresponsetimecanbeoptimizedlessthanafewsecondstotensofsecondswhenthedatabaserecordssizeisunder10million.Whenthedatasizereachestensofmillions,hundredsofmillionsorevenmorethanonebillionrecords,whateveroptimizationincludingchangingindexingmechanismareunabletomeetthesecond-levelconc

5、urrencyqueryrequirements.Inthenewquerysystem,weintroducetheSolrdistributedindexlayertosolvetheseproblems.ThelayerwillindexthedatabaserecordsfirstlyandquerieswillaccesstheSolrindexlayerandnotperformonthedatabasedirectly,therefore,theperformancewillbeimprovedhighly.Afteracomparisonofthetwoproc

6、essingpatternsinsameenvironment,forthedataof50million,20perconcurrentaccessqueryscenario,thetraditionalaccessingqueriesallaretimeout;whiletheother’squeriescanbereturnedwithin2secondsandallaresuccess.Keywords:precisionmarketing;ad-hocquery;massivedata;bigdata;query;solrcluster;sharding;B-tree

7、在电信领域的精准化营销中,需要按照客户相应查询是对客户属性的任意组合.属性划定客户人群,如某省“3G理财VIP用户人工回从数据库的层面上来看,无法预知用户每次查询访”客户维系营销,查询条件包含“是否3G用户”,“出是哪几种属性的组合及顺序,也就无法建立相应的联账收入”,“3G流量”,“套餐外流量”,“拨打分钟数”,“客合索引.而如果在每一个属性字段上都建立索引,会户状态”,“是否合约客户”,“是否靓号”,“是否银行托导致索引数据空间的急剧膨胀.同时,对于客户属性收”等属性.对于大学校园营销,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。