欢迎来到天天文库
浏览记录
ID:46401764
大小:273.51 KB
页数:4页
时间:2019-11-23
《大数据检索引擎》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、大数据检索引擎一、大数据检索引擎的背景奥巴马政府投资2亿美元启动“大数据研究和发展计划”,重要性堪比当年“信息高速公路”,希望增强收集海量数据、分析萃取信息的能力。大数据已经上升到一场国家战略,欧盟、中国等国家必将跟进,出台相应政策。中国政府已经启动的核高基项目"非结构化数据管理系统”是大数据研究和发展计划的前身,必将进一步推进大数据研究和发展。大数据平台将在生物及医疗卫生、电网、地理地质、交通、能源、气象、基础研究、电子商务、社交网络、移动互联网和物联网等领域拥有海量数据的大数据行业应用中,发挥平
2、台性的支撑作用。大数据平台包括大数据采集软件、大数据管理系统、大数据分析系统,构成企业级大数据管理和分析的三套件;大数据管理系统是非结构化数据管理系统的升级换代产品,大数据管理系统的核心是大数据检索引擎,或者说融合检索引擎技术的大数据管理系统。检索引擎是大数据高效管理和智能分析的基础,同时需要针对大数据特点(海量、数据异构多样性、应用需求多样性)进行设计,开发面向大数据的高效、可靠、智能的检索引擎。二、大数据检索引擎的总体特性及架构图1.针对大数据特点(海量、数据多样性、应用需求多样性)进行设计的高
3、效、可靠、智能的检索引擎2.分布式并行计算、多副本机制、对等节点机制、没有单点的高可靠体系架构,与Hadoop无缝集成3.支持结构化、半结构化、非结构化数据的统一管理和搜索4.为实时及用户行为数据的高效管理和分析,提供支撑5.支持PB级的海量数据管理6.支持海量用户的高并发访问(千万级用户、万级并发)7.充分释放现代计算机硬件的潜力(多核、大内存等)8.大规模部署的自动化和运行状态监控9.创新的柔性多引擎机制,提供开放的二次开发接口一、大数据检索引擎的功能指标1.扁平化设计,弹性扩展:系统采取扁平化
4、设计,节点之间完全对等,都可以对外提供服务。扁平化的架构,使整个系统没有单点故障,任何一个节点的故障都不影响系统对外提供服务;同时扁平化的架构使系统具有良好的扩展性,只需在线增加新的节点就可以提供系统的容量和对外服务能力。2.异常感知、自动恢复:大数据管理系统将硬件异常作为常见异常来处理。系统可以自动感知服务器的异常状态,并进行自我修复,不会因为单个节点的异常导致整个系统不可用。3.柔性多引擎技术:大数据管理系统使用多引擎机制,定义一个标准的引擎接口。对于不同的应用需求可以使用不同的引擎来对外提供服
5、务,用户甚至可以构建自己的引擎来扩展系统的数据处理能力。支持异构数据:结构化,半结构化,非结构化数据的统一检索。4.高效分区索引机制:可根据应用的查询特点,将数据自动分区索引,充分发挥现代PC多核服务器、大内存的优势,采用并行索引,多路合并的方式,变随机读写为顺序读写,实现高速的索引创建,适应海量数据的集中索引和快速索引的应用需求。同时,分区索引还可以减少检索时的索引匹配范围,缩短检索响应时间。5.多副本机制:一个索引可由多个子集组成,分布在不同的节点上,实现分布式检索;索引的各个子集可在不同的节点
6、上存储多个副本,索引子集多副本实现了容灾备份,避免单点故障,同时也实现了负载均衡,提高并发检索能力。6.混合索引方式:提供按词索引、按字索引、字词混合索引方式,满足不同应用场景对查全和查准的不同需求,满足100%查全需求的应用场景。7.内存表与列存储:支持在内存中建立数据表,适应数据量较少,但查询并发与响应速度要求很高的应用需求。系统支持列存储,实现特定数据列的高效访问,提高特定数据列的分类统计和排序的速度。1.异步检索:支持异步检索模式,适应大并发(高连接数)的应用场景要求,避免了同步检索模式时消
7、耗太多线程资源的问题。2.多层次、多粒度的分布式CACHE:系统既有单节点的检索缓存,又有合并后的整体检索缓存,多层次多粒度的设计,大大提高了缓存的命中率,减轻高并发下的检索节点压力,从而大幅度提高系统在高并发情况下的数据检索能力。3.可扩展的检索模式:同根词检索,算法和词典结合的英文词根检索,准确率达到99.9%。支持基于同义词、主题词的扩展检索。4.与Hadoop无缝集成:大数据检索引擎和Haboop无缝集成,可以充分利用HDFS的可靠性,MapReduce的引入也大大扩展了Hybase在数据分
8、析方面的扩展能力。一、大数据检索引擎的性能指标1.新闻数据(1000万/3000万)分别在1/3台DellR710的集群环境下的查询速度数据量DellR710台数检索速度(秒)1000万1关键词检索0.06逻辑表达式0.283000万3关键词检索0.08逻辑表达式0.302.高检索并发场景下,每个节点可加载的数据量每节点数据量检索并发数短语检索速度(“大于等于4个汉字的关键词”定义为短语)新闻1000万记录500并发1.0秒微博1亿记录500并发0.8秒*也可以增加每
此文档下载收益归作者所有