internet中海量信息处理方法优化探究

internet中海量信息处理方法优化探究

ID:5984189

大小:28.50 KB

页数:6页

时间:2017-12-30

internet中海量信息处理方法优化探究_第1页
internet中海量信息处理方法优化探究_第2页
internet中海量信息处理方法优化探究_第3页
internet中海量信息处理方法优化探究_第4页
internet中海量信息处理方法优化探究_第5页
资源描述:

《internet中海量信息处理方法优化探究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、Internet中海量信息处理方法优化探究  摘要:随着Internet的迅猛发展和日益普及,电子信息迅速膨胀,如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学领域面临的一大挑战。对Internet中的海量信息的处理进行了研究,探讨了海量信息的优化处理方法及其查询优化,在一定程度上提高了用户从海量信息获取有用信息的效率。关键词:海量信息;优化处理;数据挖掘;查询优化中图分类号:TP391文献标识码:A文章编号:16727800(2012)011010503作者简介:段艳明(19

2、78-),女,硕士,河池学院计算机与信息科学系讲师,研究方向为数据库和人工智能;肖辉辉(1977-),男,硕士,河池学院计算机与信息科学系讲师,研究方向为数据库和GIS。0引言6随着信息技术的发展和互联网的普及,在Internet中有着数以亿计的网页,成千上万的TB数据,包括文本、图像、声音、影像等等。另外,Internet中每天有数十万的网页更新,数百万的新网页加入,使得其信息丰富而复杂,在网络上获取任何信息已成为可能,但获取准确、有效的信息,成了计算机技术发展需要解决的主要问题,对Internet中海量信息的有效

3、处理的需求越来越迫切。海量数据的优化处理,一方面要合理使用数据库工具和合理分配系统资源;另一方面要有好的处理方法。好的优化处理方法及其优化查询能进一步提供查询效率,提高用户的查全率和查准率。1海量信息的优化处理方法1.1选择合适的数据库海量数据的处理对所使用的数据库工具的要求比较高,一般情况下使用Oracle、DB2或者微软的SQLServer2005。另外在BI领域、数据库、数据仓库、多维数据库和数据挖掘等相关工具也要进行选择,较好的ELT工具和较好的OLAP工具对海量数据的有效处理都是十分必要,例如Informa

4、tic、Eassbase等。1.2优化程序代码处理数据离不开优秀的程序代码,尤其是对海量复杂数据处理时,必须使用程序。优良的程序代码对海量数据的处理至关重要,可以提高数据处理的准确度和效率。好的程序代码包括好的算法、流程处理、效率和异常处理机制等。1.3数据分区操作6对海量数据进行分区操作可以提高处理速度,像按月份存取的数据,可以按月份进行分区,例如移动手机话费查询系统。不同的数据库管理系统有不同的分区方式,单处理机制大体相同,像SQLServer数据库管理系统分区是将不同的数据存储在不同的文件组下,而不同的文件组又

5、存储在不同的磁盘分区下,这样即可分散数据,以减少磁盘I/O和系统负荷。1.4建立索引针对海量的数据处理,在大表上建立索引可以提高处理效率。但建立索引要考虑到具体情况,大表的分组、排序等字段,应该建立相应索引及复合索引。但对于插入操作较频繁的表要慎重建立索引,例如:在一个ETL流程中,若先建立了索引,在聚合操作完成后,当再次进行插入数据操作时,则要先删除索引,然后才能插入数据。所以,在海量数据处理时要在恰当的时候用索引,并且要考虑到索引的填充因子和聚集、非聚集索引等。1.5分批处理海量数据处理难的主要原因在于数量大,我

6、们可以对海量数据分批处理,再把处理后的数据进行合并操作,这样,可以避免海量数据处理带来的诸多问题。但采用这种方法处理海量数据时要因时因势进行,如果某些数据不允许拆分,则不能对其进行分批处理。一般按时间、按部门、按地域等存储的数据,都可以采用先分批后合并结果的方法,即对数据进行分批处理。1.6采用文本格式存储数据6利用程序处理数据有程序操作数据库和程序操作文本两种方法,但对海量数据的处理一定要选择程序操作文本,因为程序操作文本的速度快,对文本格式数据进行处理时不容易出错,且文本格式数据的存储不受限制。例如海量的Inte

7、rnet日志一般都是文本格式,最好利用程序对其进行数据清洗处理,而不应先把海量的Internet日志导入数据库再做清洗处理的操作。1.7使用数据仓库和多维数据库在系统的开发中,当数据量增大时可以利用OLAP技术,即建立数据仓库,建立多维数据集,基于多维数据集进行报表展现和数据挖掘等,基于Cube的查询在很大程度上能提高数据的查询效率。因此,OLAP多维分析是处理海量数据的利器之一。2海量信息的查询优化2.1优化SQL查询语句在海量数据中进行查询处理时,SQL查询语句的性能很大程度上决定着查询效率,高效优良的SQL脚本

8、和存储过程能提高其查询速度。(1)避免在SQL查询语句中使用select*fromtable,应用表中具体的字段列表代替“*”。(2)避免写一些没有意义的查询,如生成一个空表结构的查询:selectsno,snameinto#table1fromstuwhere61=0。像这类代码不会返回任何结果集,但会消耗系统资源,应改成这样:createt

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。