欢迎来到天天文库
浏览记录
ID:37355940
大小:1.83 MB
页数:19页
时间:2019-05-22
《大数据时代下云存储技术的探索和产品设计杨钢》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、在线数据处理在存储的实践金山云杨钢2013-6-4内容简介•不包含有关数据挖掘、商业价值的内容•根据金山云自身案例改编•推荐发展阶段公司的数据处理技术和产品2013-6-13需求描述•秒传功能•文件按照Hash排重(Size+MD5+SHA1)•大文件以4MB为单位分块•清理功能•如何准确寻找不再被引用的数据块•引用计数的问题•无法实现强一致性2013-6-13实时映射表2013-6-13关键参数•在线服务•数据集必须实时表现文件与数据块的关联关系(实际上由于同步模型可容许小于2s的数据延迟)•数据集规模•文件条目数•用户数•数据集更新QPS•
2、系统运行成本2013-6-13外围结构简图2013-6-13消息队列•文件API将变更原语推送到消息接收器•可采用多种RPC框架,例如Thrift•不过我们采用了UDP,因为后期还有校检器,不希望此服务对API构成影响•消息接收器将消息保存为按时序排列的消息列表•更新器不断获取新的消息段,更新对应的表2013-6-13数据集演变•单机•设计容量:用户数10M,文件条目数10G•普通服务器•大服务器•设计容量:用户数100M,文件条目数100G•大服务器+超算存储•分布式•设计容量:用户数1G,文件条目数1T•分布式数据仓库+超算存储2013-6
3、-13阶段一:10G记录•数据集指标•用户数10M•文件条目10G•QPS峰值10K2013-6-13正向引用表•数据规模•假设单条长度32字节,10G条数据容量320GB•文件数据按用户分划,假设单用户数据对齐到4KB,10M用户最多有冗余数据40GB•两项之和为360GB•部署模型•单服务器整合更新器•活跃用户的数据缓存在内存中,采用LRU结合固定刷新周期•物理服务器•普通服务器,内存为数据集1/20,24GB即可•设备价格2万元(3年),托管价格约400元,合计950元/月2013-6-13反向引用表•数据规模•STORMap:假设单个记
4、录为32字节,10G条数据容量为320GB•FIDList:假设1个STOR平均对应2个FID,即16字节,则数据容量为160GB•根据经验值加上20%冗余和附加消耗,总数据容量600GB•部署模型•采用两级结构:用两块320GBSSD硬盘做二级存储;使用大约40GB内存做一级存储•物理服务器•略贵于前者,每月摊销大约在1200元以下2013-6-13阶段二:100G记录•假定所有指标等比上调•用户数100M,记录数100G•正向表•数据空间3.5TB,建议200GB内存做为缓存•对应服务器采购价约5万元,托管价格约900元,合计每月2500元
5、•反向表•数据集6TB,需要存储/计算混合型服务器,搭载多块SSD硬盘。建议分配400GB内存做一级缓存•对应服务器价格约10万元,托管价格2000元,合计每月4500元2013-6-13阶段三:1T记录•集群化设计•正向表按用户划分•反向表按Hash码划分•多个更新器2013-6-13容错处理•设备容错•使用RAID1应对常见的磁盘故障•服务容错•可以暂时断开同步(更新器),修复服务后,继续运行同步2013-6-13校检器•检查正反向映射表一致性•根据内存大小,划分FID(即User)和STOR的空间,根据正向表建立内存数据,然后再用于检查反
6、向表•检查时应暂停同步,且保证各个数据节点同步在同一个检查点•检查正向表与File数据库的一致性•保持同步状态,以User为单位,检查数据是否一致•如果该用户在检查时刻前5s以内有数据更新,重新排入任务队列•如果发现不一致,生成差异变更信息,投入消息队列2013-6-13方案比较•VS数据库•效率差异•成本差异•稳定性与一致性指标差异•VSHadoop•在线数据处理需求2013-6-13总结•Map/Reduce只是数据处理的范式之一•根据不同需求选择不同的数据处理方案•可以考虑具有性价比优势的高配服务器•例如:4路CPU,1TB内存,价格仅十
7、几万•简化了应用开发的难度,和集群的规模•大数据处理时通常需要高吞吐存储集群配合2013-6-13金山云广告时间•专为企业数据挖掘提供的存储解决方案(私有云方案)•一个卷可以同时挂接到多台计算设备•单卷可支持高达数百PB•15台普通存储服务器集群吞吐量可达100Gbps(使用万兆网络)•联系邮箱yanggang@kingsoft.com2013-6-13
此文档下载收益归作者所有