基于一种海量数据处理分析系统设计文档

基于一种海量数据处理分析系统设计文档

ID:18492945

大小:4.01 MB

页数:18页

时间:2018-09-18

基于一种海量数据处理分析系统设计文档_第1页
基于一种海量数据处理分析系统设计文档_第2页
基于一种海量数据处理分析系统设计文档_第3页
基于一种海量数据处理分析系统设计文档_第4页
基于一种海量数据处理分析系统设计文档_第5页
资源描述:

《基于一种海量数据处理分析系统设计文档》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、18中科基于一种海量数据处理分析系统的设计文档一、海量数据处理的背景分析在当前这个信息量飞速增长的时代,业的成功已经越来越多地与其海量数据处理能力相关联。高效、迅速地从海量数据中挖掘出潜在价值并转化为决策依据的能力,将成为企业的核心竞争力。数据的重要性毋庸置疑,但随着数据的产生速度越来越快,数据量越来越大,数据处理技术的挑战自然也越来越大。如何从海量数据中挖掘出价值所在,分析出深层含义,进而转化为可操作的信息,已经成为各互联网企业不得不研究的课题。数据量的增长,以及分析需求的越来越复杂,将会对互

2、联网公司的数据处理能力提出越来越高的要求、越来越大的挑战。但每一个场景都有其特点与功能,充分分析其数据特性,将合适的软件用在合适的场景下,才能更好地解决实际问题。二、海量数据处理分析的特点(一)、数据量大,情况多变现在的数据量比以前任何时期更多,生成的速度更快,以前如果说有10条数据,繁琐的操作时每条去逐一检查,人为处理,如果有上百条数据,也可以考虑,如果数据上到千万级别,甚至过亿,那不是手工能解决的了,必须通过工具或者程序进行处理,尤其海量的数据中,情况多变,手工操作是完不成任务的。例如,数据

3、中某处格式出了问题,尤其在程序处理时,前面还能正常处理,突然到了某个地方问题出现了,程序将会终止。海量数据处理系统的诞生是输入层每个神经元的输入是同一个向量1818的一个分量,产生的输出作为隐藏层的输入,输出层每一个神经元都会产生一个标量结果,所以整个输出层所有神经元的输出构成一个向量,向量的维数等于输出层神经元的数目在人工神经网络模型中,各个神经元通过获取输入和反馈,相对独立地进行训练和参数计算。其拓扑结构的重要特点便是每一层内部的神经元之间相互独立,各个层次间的神经元相互依赖。由于各个层次内

4、部神经元相互独立,使得各个层次内部的神经元的训练可以并行化。但由于不同层之间的神经元具有相互依赖关系,因此各个层次之间仍然是串行处理的。可以将划分出的每一层内部的不同神经元通过map操作分布到不同的计算机上。各个神经元在不同的计算终端上进行训练,在统一的调度和精度控制下进行多个层次的神经元的训练,这样神经网络算法的训练就可以实现并行化。训练结束后,同样可以通过每层内节点的并行化处理快速地得到输出结果。在神经网络算法中,每层内的节点都可以进行并行化处理,并行化程度非常高。(二)、软硬件要求高,系统

5、资源占用率高各种应用对存储系统提出了更多的需求,数据访问需要更高的带宽,不仅要保证数据的高可用性,还要保证服务的高可用性;可扩展性:应用在不断变化,系统规模也在不断变化,这就要求系统提供很好的扩展性,并在容量、性能、管理等方面都能适应应用的变化;对海量的数据进行处理,除了好的方法,最重要的就是合理使用工具,合理分配系统资源。一般情况,如果处理的数据过TB级,小型机是要考虑的,普通的机子如果有好的方法可以考虑,不过也必须加大CPU和内存,对电脑的内存、显卡、硬盘及网络都要求相对较高!其中对网络要求

6、高的原因是因为其引入目前最前沿的“云端计算”好多东西都要从网络上调用;对硬盘要求是最高的,用SATA6.0的固态硬盘,对整机性能限制比较大的就是高速系统总线对低速硬盘传输,32位的系统,最大只能认到3.5G内存,就是说,不论你装几根内存条,装多大容量的内存条,你装8G的,它也只能用到3.5G,64位的系统就可以突破了这个限制。如果你的电脑配置不是特别高的话,XP是比较好的选择。32位的XP是最低要求。基于23G互操作测试生成23G互操作测试报告测试起始点时间、测试终止点时间、3G网络驻留时间(秒

7、)、2G网络驻留时间(秒)、3G覆盖总采样点、3G覆盖总采样点不同区间数量统计、3G覆盖总采样点不同门限范围内数量统计、2G覆盖总采样点、2G覆盖总采样点不同区间数量统计、2G覆盖总采样点不同门限范围内数量统计、3G到2G重选成功次数、2G到3G重选成功次数、3G到2G切换尝试次数、3G到2G切换成功次数、切换掉话次数和其它掉话次数。(三)、过高的处理方法和技巧1818随着数据量的飞速增长,存储的规模越来越庞大,存储系统本身也越来越复杂,这给系统的管理、运行带来了很高的维护成本;能够按照应用需求

8、的不同提供不同的服务,如不同的应用、不同的客户端环境、不同的性能等。处于这个阶段的系统都在研究中,但从中也可以看出一些发展趋势:体系结构的研究逐渐成熟,表现在不同文件系统的体系结构趋于一致;系统设计的策略基本一致,如采用专用服务器方式等;每个系统在设计的细节上各自采用了很多特有的先进技术,也都取得了很好的性能和扩展性。通常没有通用的处理方法,但有通用的原理和规则。1、选用优秀的数据库工具现在的数据库工具厂家比较多,对海量数据的处理对所使用的数据库工具要求比较高,一般使用Oracle或者DB2。另

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。