天算系统的设计要点

天算系统的设计要点

ID:19339223

大小:34.50 KB

页数:9页

时间:2018-10-01

天算系统的设计要点_第1页
天算系统的设计要点_第2页
天算系统的设计要点_第3页
天算系统的设计要点_第4页
天算系统的设计要点_第5页
资源描述:

《天算系统的设计要点》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、天算系统的设计要点1特点天算平台本质上是全文检索系统,先天具有全文检索系统的快速、稳定、高并发的特点。同时,基于专利技术(已审核),系统实现了数值计算、维度去重、分组等数普通据库的统计计算常用功能。系统具有下列特点1)快速(以下结果用2台服务器测得)1.6.8亿数据多维检索,结果集1000万,速度200毫秒。2.6.8亿数据整体全sum,速度600毫秒。3.6.8亿数据分组,分成35组,速度2000毫秒。2)稳定,高并发;3)普通的Count,sum,max,min,average4)Distinct中,同时可做其他数值列的Count,sum等计算。同时可基于另一个时间列,做数值列的last

2、,first计算。这在时序数据处理和压缩存储方面非常有意义。5)Groupby,同时可做每个group的Count,sum等计算6)任意量级的列数据导入(比如用户自己的100万userid列表导入搜索,支持AND,OR,NOT操作),导入速度是1~5秒。7)任意量级的数据导出:后台导出,到hadoop。依据导出数量,时间在秒级到分钟级。8)跨列的自定义function计算。9)跨行的自定义计算(需要写插件)10)自定义的复杂函数(需要写插件)1.1系统设计策略天算平台设计为向用户提供数据查询和统计服务的系统,能够支持海量数据(10亿级别以上),能够提供秒级检索和统计计算服务。其内部核心处理逻

3、辑要保持高、精确、稳定。此外,系统也要求尽量自动化、减少人工维护成本。1:采用solr作为检索和计算功能的核心。当然solr本身并不支持计算,需要深度开发。2:采用Hadoop集群(天梯)建立索引。3:最合适业务需求的分布式部署和检索架构。4:组件化的设计方式,为将来的系统升级留出接口。1.2系统定位与职责1.2.1天算平台的定位:提供用户海量数据的秒级多维查询、挖掘、统计。1.2.2TS-Index天算索引系统的职责:将原始数据在Hadoop集群中高效的建立索引分片。根据userid分片。1.2.3TS-Manager天算管理系统的职责:维护Project-Group-Shards树。自动

4、启动TS-Index,并自动部署建好的索引。监控每个solrshard的健康情况。1.2.4TS-Core天算核心系统的职责:分发query,并负责merge查询结果。处理具体query。完成检索和计算。1.2.5TS-Logic天算逻辑系统的职责:处理用户表单,分解为TS-Core能够处理的solrquerystring。LoadBalance,并将失效的组从候选列表中去除。返回查询结果表格。1.2.6TS-UI天算界面系统的职责:用户操作、权限、搜索条件编辑、结果集展示。1.3开发语言、系统结构采用JAVA语言开发。B/S结构。通过浏览器(如InternetExplorer)使用,支持主

5、流浏览器。1.4运行环境1.4.1硬件环境依据项目的具体情况,调整机器数量。服务器具体配置如下。两台这样的机器就能支持10亿数据。1)CPU:2CPU,6核心,超线程2)内存:48G~96G3)磁盘:SATA2T*121.4.2软件环境1)Linux2)JDK/JRE:Java6.0.X以上3)Zookeeper1.4.3Hadoop集群,用以支持建索引1)天梯,10000个mapper,800个reducer2)1.5小时左右创建好索引http://user.qzone.qq.com/165162897?ptlang=2052#!app=2&via=QZ.HashRefresh&pos=c

6、atalog_list给你这个博客看看~~里面深入介绍了海狗系统的很多东西一、lucene修改:可以直接在hdfs中创建l目的:去掉单独的小集群在旧版黄金策项目中,索引的创建是一个的高配置的hadoop小集群来完成。直接通过调用solr的API,在本地文件系统中创建,因为索引体积较大,需要大硬盘。修改后,索引可以通过mapreduce在hdfs中创建,去掉了小集群,改用公司统一的大集群。l原理Linux本地文件系统支持随机写,但是hadoop的hdfs不支持随机写,阅读lucene源码发现,lucene仅有很小的一段代码需要用到随机写,其目的仅仅是更新一个计数的标记,稍微改造下即可。二、lu

7、cene修改:frq频率文件采用局部zip压缩l目的:减少frq文件的体积frq文件的体积过大,导致每天下载索引过程缓慢,通过zip压缩,体积减少到了原先1/8。l原理frq文件一般与tis文件组合使用,来完成倒排表的功能。比如,性别是“男生”的记录有1000条,在frq中会保存这1000条记录的文档id列表,而且文档之间采用与前面文档的差值进行存储,如果重复值特别高的字段,对应的记录数就会特别的多,采用差值

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。