进入大数据的世界

进入大数据的世界

ID:39725033

大小:289.81 KB

页数:27页

时间:2019-07-10

进入大数据的世界_第1页
进入大数据的世界_第2页
进入大数据的世界_第3页
进入大数据的世界_第4页
进入大数据的世界_第5页
资源描述:

《进入大数据的世界》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、1.数据的价值审视现有技术,不难发现,所有技术都是以数据为核心。作为用户,我们对富媒体的欲望与日俱增,比如观看的电影和创建并上传到网络的照片和视频。我们也常常在日常生活中,不经意地在网上留下一串数据。不仅数据总量迅速增加,同时数据的生成速率也在不断增加,从电子邮件到各类型论坛留言,从网上购网记录到网站链接,到处都是不断增长的大数据集。在此背景下,最大的挑战在于,如何从这些数据中提取出有价值的信息。有时是提取特点的数据元素,有时是分析数据间的关系或是判断一种趋势。数据的使用方式变得越来越有意义。一段时间以来,大型公司已经注意到了数据的价值,并且使用它来提升服务质量。如,Goo

2、gle在用户正在访问的网页上显示内容相关的广告,淘宝购买商品时的推荐商品。如果不会带来有价值的回报或者明显的竞争优势,这些大型企业是不会投资发展大数据处理技术的2.如何认识大数据只有在数据足够大的时候,某些问题才变得有意义。例如,在其他影响因素缺少的情况下,基于一个第三人的喜好电影推荐是不可能有意义的。因为没有参考数据,然而当我们的参考样本增加到100时,推荐成功的几率略有上升。而使用1000万人的观看记录,可以大幅提升获得推荐模型的可能性。我们希望数据的处理工具能够有较低的成本大规模数据的处理时间能够在我们可以接受的范围内。如果一个系统处理所有到达数据,但是其处理时间以周

3、为计量单位,那么该系统也是不可用的3.大数据的发展状况前面讨论的从大数据中提取有价值信息用于改进服务质量的例子,往往属于大型搜索引擎和在线公司的创新模式。这是因为在早期的发展过程中,大数据处理不仅成本高而且实现困难,超出了中小企业的能力范围。同样,比大数据处理技术应用更为广泛的数据挖掘方法已经存在了很长的一段时间,但是在大型企业和政府部门之外却从来没有真正得到推广使用。但在过去,对于大多数小公司来讲却无关紧要,因为它们的数据量并不多,不需要投入大量的资金来处理这些数据。然而,到如今,数据量的增加已经不再局限于大型公司,许多中小型企业甚至一些个人收集到的数据也越来越多。他们也

4、意识到这些数据中可能包含在正待发掘的价值3.1如何应对越来越多的数据造成大数据挖掘系统稀有并且昂贵的根本原因是,将现在小型计算机系统扩展我大数据处理系统时非常困难的。正如我们所见,一直以来,数据处理系统的处理能力一直受限于单台计算机的极限计算能力。随着数据规模的增长,早期出现了两种常用的扩展系统的方法,通常称之为“向上扩展”和“向外扩展”。向上扩展在大多数企业,数据处理任务通常由相当昂贵的大型机来执行。随着数据规模的增长,向上扩展的方法就是将数据处理任务迁移到更大的服务器或者存储矩阵。即便以今天的视角来看,这种架构确实有效。但其所增加的成本非常大。优点:在一定的数据条件下,

5、系统的架构不会随着数据量的增大而发生显著变化,尽管采用了更大型的部件,但部件之间的基本关系却不会变缺点:单台计算机的处理能力受到现实条件的约束,单一架构的数据处理器规模不可能无限扩大。数据规模大到一定程度时,可能需要定制特殊的处理方式。向外扩展向外扩展不通过升级系统的硬件来获得更强的处理能力,而是将数据处理任务分发给越来越多的机器。如果数据集的规模翻倍了,那就使用两台机器来处理,而不是一台有着2倍处理能力的机器。优点:采购成本低,大型机的采购成本随着处理能力的增长而程指数上涨---如果一台主机的采购成本为5000元,那么一台10被处理能力的主机可能需要100倍的钱。缺点:向

6、外扩展系统的不足之处需要确定一种策略来把数据处理任务分发给不同的机器,而经验证明具有上述用途的策略异常复杂制约因素除大型企业、政府、学术研究机构外,上面的两种方法并没有得到广泛应用,因为系统的采购成本很高,研发和维护这些系统的成本同样很高,所以很难被小型企业所接受,此外这些方法本身的缺陷也随着时间的推移逐步明显。◆随着2种系统的扩展,系统并发所带来的系统复杂性问题日益明显,如何有效利用多台主机或多个cpu是一个难题,要想在整个数据处理任务执行期间保持高效运作,需要付出极大的努力◆通常硬件性能的提升在不同的硬件上表现有很大的差异,如cpu的性能提升远远大于内存和硬盘的性能,所

7、以存储系统提供的数据传输随着时间的推移无法满足cpu所需数据的工作需要4.如何选择正确的方式在某些情况下,工作程度的增量可能会超出现有单台服务器整体向上扩展的能力,这个时候必须使用向外扩展,使用更多的服务器,所以,在极端的情况下,向上扩展架构必然趋势是加入向外扩展。这个时候我们不得不面对的是手工开发跨集群逻辑优点:减少昂贵的开销,以及单一向外扩展的复杂集群逻辑。2.2.1融合架构的正确处理尽量不共享内容数据共享会造成多个主机会访问同一块数据导致系统延迟。如多个主机访问的是同一个主机的数据,那么整个系统的性能就会受限

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。