基于hadoop的网络日志挖掘方案的设计[word文档]

基于hadoop的网络日志挖掘方案的设计[word文档]

ID:11776371

大小:30.50 KB

页数:14页

时间:2018-07-13

基于hadoop的网络日志挖掘方案的设计[word文档]_第1页
基于hadoop的网络日志挖掘方案的设计[word文档]_第2页
基于hadoop的网络日志挖掘方案的设计[word文档]_第3页
基于hadoop的网络日志挖掘方案的设计[word文档]_第4页
基于hadoop的网络日志挖掘方案的设计[word文档]_第5页
资源描述:

《基于hadoop的网络日志挖掘方案的设计[word文档]》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基于Hadoop的网络日志挖掘方案的设计关键字:基于,hadoop,网络,网络日志,挖掘,方案,设计基于Hadoop的网络日志挖掘方案的设计本文为Word文档,感谢你的关注!  摘要:提出一种挖掘指数级别网络日志数据的解决思路,设计了一个高可靠的网络日志数据挖掘方案。针对现有的公开网络日志数据集,在数据预处理阶段实现了基于MapReduce的过滤算法,并且挖掘出支持企业决策的服务信息。对该方案搭建的平台进行优化操作,性能提升了3.26%,最后对方案的高可靠性、日志文件个数对平台I/O速度的影响、平台和单机在查询

2、性能上的对比等方面做了实验。结果表明:该设计方案不仅可靠,而且随着日志文件个数的翻倍增加,读操作耗时平均增加52.58%,写操作耗时平均增加79.69%。随着日志量的增加,单机的查询耗时急剧增长,而平台的查询耗时趋于稳定。随着机器节点的增加,运算耗时以平均8.87%的速度减少。  关键词:网络日志;数据挖掘;数据清洗;Hadoop;MySQL  TN711?34;TP391.9A1004?373X(2017)09?0115?06  Abstract:AthoughtofminingtheWeblogdatawi

3、thexponentlevelisputforward.AhighreliabilityWeblogdataminingschemewasdesigned.AimingattheavailablepublicWeblogdataset,thefilteringalgorithmbasedonMapReducewasimplementedinthedatapreprocessingstagetominetheserviceinformationsupportingtheenterprisedecision.The

4、platformestablishedwiththisschemeisoptimized,anditsperformanceisincreasedby3.26%.Theeffectofthescheme′shighreliabilityandlogfilequantityontheI/Ospeedoftheplatform,andthecomparisonoftheplatformwiththesinglemachineintheaspectofqueryperformanceweretested.Theres

5、ultsshowthatthedesignedschemeisreliable,doubleincreasedwiththeincreaseofthelogfilequantity,thetimecostofthereadoperationisincreasedby52.58%averagely,andthetimecostofthewriteoperationisincreasedby79.69%.Withtheincreaseofthelogquantity,thequerytimecostofthesin

6、glemachineisincreasedrapidly,andthequerytimecostoftheplatformisstable.Withtheincreaseofthemachinenodes,thecomputationaltimecostisdecreasedby8.87%averagely.  Keywords:Weblog;datamining;datafiltering;Hadoop;MySQL  0引言  随着信息爆炸时代的到来,在日常生活中每天都会产生指数级的数据,特别是网络日志,这就

7、必然带来一系列的问题。一方面数据存储量过于庞大而且存储资源有限,另一方面传统的计算方式使得计算过程周期过长,计算资源得不到合理分配。随着Apache公司Hadoop的诞生,利用低价的集群实现了强大的计算和海量存储,并且在网络日志挖掘这一领域出现了一些应用研究[1?2]。本文的一个目的就是研究Hadoop框架及其生态系统成员,搭建出一种基于Hadoop生态系统成员Zookeeper的高可靠(HighAvailable,HA)集群并�M行优化。  网络日志数据是一种暗数据,所谓暗数据就是大数据的一个子集,是指被用来

8、收集、处理和存储但不做其他用途的数据,因其数据量庞大,受到技术和工具的限制,一般并不用来做分析[3]。但是网络日志数据对于企业有巨大的潜藏价值,它更能反映出用户的浏览兴趣与意图。利用数据挖掘技术挖掘出有价值的信息可以提高企业的产品质量和服务。另外,面对这种指数级别的日志数据,不但要关注数据的量的庞大,还要要求数据的质的可靠无误。网络日志数据往往很驳杂,数据中存在着错误和不一致性,需要剔

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。