大数据存储与处理-第二讲

大数据存储与处理-第二讲

ID:36782408

大小:5.34 MB

页数:51页

时间:2019-05-10

大数据存储与处理-第二讲_第1页
大数据存储与处理-第二讲_第2页
大数据存储与处理-第二讲_第3页
大数据存储与处理-第二讲_第4页
大数据存储与处理-第二讲_第5页
资源描述:

《大数据存储与处理-第二讲》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、大数据的三个关键问题Google的大数据技术Google的业务:PageRank三大法宝1第二讲大数据的关键技术文件存储数据分析数据计算数据存储平台管理数据集成数据源DatabaseWebLog…现代数据处理能力组件现代数据处理框架三大关键问题3V计算存储}容错}}三大关键问题存储计算容错存储问题解决大数据存储效率的两方面:–容量–吞吐量容量–单硬盘容量提升:MB→GB→TB→┈–系统整体容量提升:DAS、NAS、SAN吞吐量=传输数据量/传输时间–单硬盘吞吐量提升:转速、接口、缓存等–节点吞吐量提升:RAID、专用数据库机提升吞吐量RAID:Red

2、undantArrayofInexpensiveDisks,冗余磁盘阵列–把多块独立的硬盘按一定的方式组合起来形成一个硬盘组,从而实现高性能和高可靠性–RAID0:连续以位或字节为单位分割数据,并行读/写于多个磁盘上,提升吞吐量Source:http://www.fujitsu.com/三大关键问题存储计算容错多核技术Moor定律:当价格不变时,集成电路上可容纳的晶体管数目,约每隔18个月便会增加一倍,性能也将提升一倍。采用多核(Multi-core)技术提升IPC,从而突破性能提升瓶颈。指令数主频IPSMFIPC多处理器技术多处理器

3、技术的核心:按处理器之间的关系可以分为两类:1F1F/N非对称多处理器架构(ASMP)––––不同类型计算任务或进程由不同处理器执行简单,操作系统修改小低效早期过渡性架构对称多处理器架构(SMP)––––所有处理器完全对等计算任务按需分配高效普遍采用并行模式独立并行–两个数据操作间没有数据依赖关系––可以采用独立并行的方式分配给不同的处理器执行例:两个独立数据集的Scan操作流水线并行–多个操作间存在依赖关系,且后一个操作必须等待前一个操–作处理完后方可执行将多个操作分配给不同处理器,但处理器间以流水线方式执行–例:Scan→Sort→Gr

4、oup分割并行–数据操作的输入数据可以分解为多个子集,且子集之间相互独立–分割为若干独立的子操作,每个子操作只处理对应的部分数据,并将这些子操作配到不同的处理器上执行–例:Scan→Merge并行系统架构共享内存(SharedMemory,SM)–多个处理器,多个磁盘,一个共享内存,通过数据总线相连–处理器间共享全部磁盘和内存–––结构简单,负载均衡数据总线成为瓶颈,可扩展性较差,共享内存单点故障适合处理器较少(≤8)的小规模并行数据库共享磁盘(SharedDisk,SD)–多个处理器,每个处理器拥有独立内存,多个磁盘,处理器与磁盘通过数据总线相连–––处理

5、器间共享全部磁盘容错性提高共享磁盘成为性能瓶颈,需要额外维护内存与磁盘间的数据一致性无共享(SharedNothing,SN)–每个处理器拥有独立的内存和若干磁盘,通过高速网络相连–处理器独立处理所管理的数据–––––数据传输量小,效率高可扩展性强节点间交换数据开销较大适合处理器数量较大的大规模并行系统后期发展的主流三大关键问题存储计算容错数据容错RAID单节点数据冗余存储–RAID0:并行磁盘–RAID1:镜像冗余–RAID10:RAID1+RAID0–RAID5:校验冗余Source:http://www.fujitsu.com/集群多节点数据冗余存

6、储计算任务容错计算任务容错的关键问题:–故障监测–计算数据定位与获取–任务迁移Google是如何解决其大数据处理的三个关键性问题的?我们需要先了解Google的业务特点。14Google的大数据技术1995199619971999200120032005200720092011...19982000200220042006200820102012当佩奇遇见布林合作开发BackRub搜索引擎命名GoogleGoogle公司成立首名专用厨师入职建立10亿网址的索引图片搜索+30亿网址索引商品+新闻+API开始收购+Google图书80亿网址索引+上市+学术搜索

7、地图+Talk+分析YouTube+GoogleAppsGmail+街景+AndroidHealth+iPhone应用社交网络搜索+实时地图导航+搜索收购Moto手机+投平板电脑资能源++Google应用商店眼镜GoogleGoogle最重要的业务?搜索AdWordsGoogle发展史Google之前的搜索目录型搜索:Yahoo!–收集:人工分类–索引:主题–使用:目录结构–优点:准确率高–缺点:覆盖率低索引型搜索:AltaVista–收集:自动爬取(Scooter)–索引:自动标记–使用:输入关键词搜索–优点:覆盖率高–缺点:准确率低覆盖率VS.准

8、确率:鱼与熊掌不可兼得?GoogleGoogle的自

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。