面向大规模日志文件的数据处理方法研究及应用.pdf

面向大规模日志文件的数据处理方法研究及应用.pdf

ID:34624697

大小:4.54 MB

页数:70页

时间:2019-03-08

面向大规模日志文件的数据处理方法研究及应用.pdf_第1页
面向大规模日志文件的数据处理方法研究及应用.pdf_第2页
面向大规模日志文件的数据处理方法研究及应用.pdf_第3页
面向大规模日志文件的数据处理方法研究及应用.pdf_第4页
面向大规模日志文件的数据处理方法研究及应用.pdf_第5页
资源描述:

《面向大规模日志文件的数据处理方法研究及应用.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、密级桂林电子科技大学硕士学位论文(全日制专业学位硕士)题目面向大规模日志文件的数据处理方法研究及应用(英文)Research on Application of Data Processing for Large Log File研究生学号:1208521110研究生姓名:张川指导教师姓名、职务:邓珍荣(副教授)申请学位门类:工程硕士学科、专业名称:计算机技术提交论文日期:2014年9月论文答辩日期:2014年12月万方数据II万方数据摘要摘要时至今日,大数据时代到来的风暴革新了我们的生活、工作和思维,渗透在各个工业、商业和科研领域当中。在科学研究(天文学、生物学、高能物理等)、互

2、联网、电子商务、计算机仿真等应用中数据呈现快速增长的趋势,特别是在科学研究中每年新数据的增量为15PB左右;大数据时代带来两大趋势:数据不断膨胀和数据深度分析。因此近年来对数据的分析和挖掘已经成为计算机研究领域中一个炙手可热的话题。大数据诸如突出的各种特性,已经使得传统的数据ETL、数据挖掘的方式都不再适用。面对密集型、复杂混合型的数据需要有更高效的监控方案。数据ETL主要是将分散的、异构源中的数据如关系型数据、稠密性数据进行提取、清洗和加载,最后成为联机分析处理、数据挖掘的的基础。目前对海量日志处理的方案和开源软件相继出现,基于Hadoop的应用已经遍地开花,尤其是在互联网领域。

3、分布式文件系统HDFS和并行计算模型MapReduce作为Hadoop的核心组件,从存储模型和计算模型都具有更高的容错性、更强的扩展性,为海量日志的处理提供了很好的运行平台保障。在数据存储中采用诸如HBase的非关系型数据库,以此为基础深入研究适应大规模网络日志文件的数据处理技术,主要围绕数据监控、数据清洗、数据抽取、数据装载、挖掘应用开展研究论述。仅仅对海量日志进行预处理是不足以完全达到海量数据处理的能力,还需要结合相关的数据挖掘算法研究,基于上述原因,本文将Hadoop平台技术运用到数据挖掘中,对于能够实现并行化的算法,结合了MapReduce并行计算模型,将其移植到Hadoo

4、p平台上,提高了海量数据处理的性能。本文的研究重点总结如下:一、Hadoop生态系统中的开源子项目-Zookeeper,本文在研究中利用其分布式协调服务、分布式锁机制和实时反馈等相关技术,提出了实时计算框架-通用数据采集模型。该数据模型采用三层设计架构,作为单点可靠服务,在不影响单机主体正常服务的情况下,提供“无感知”的服务部署,为日志的实时采集提供了高效的策略。二、依托Hadoop平台的数据组织、读写原理,针对海量数据的特点,设计并实现了基于Chukwa的大规模日志智能监测方法。极大的弥补了MapReduce只能处理大文件数据的缺陷,也进一步提高了日志处理的灵活性和扩展性。三、研

5、究MapReduce并行计算模型,提出一种基于M-R计算模型的遗传聚类并行算法(ClusteringGeneticparallelAlgorithmbasedonM-Rmodel,M-RCGPA)。通过使用遗传算法来弥补聚类分析在筛选聚类中心不稳定而影响聚类结I万方数据摘要果的缺陷,然后依靠M-R并行计算模型来加速聚类分析的收敛速度。并且通过实验数据证明了的算法的可行性、并行化加速比的优越性。目前通用数据采集模块应用于百度搜索引擎等产品线当中,为各个产品线和优化项目提供了基础数据和决策支持的保障,为大数据平台的整体建设提供强有力的支撑。基于Chukwa的大规模日志智能监测方法目前应

6、用广告智能监测、商业分析等领域中。关键字:日志采集;ETL;分布式计算;MapReduce;Hadoop;II万方数据万方数据AbstractAbstractToday,thestormofbigdataerahavebeenrevolutionizedourlives,workandthinking,penetrationinvariousindustrial,commercialorscientificfield.Intheapplicationofscientificresearch(suchasAstronomy,biology,high-energyphysics),In

7、ternet,electroniccommercedata,computersimulation,showingthetrendofrapidgrowthofdata,especiallytheannualincrementinthescientificresearchofnewdataisabout15PB.Theageofbigdatahasbroughttwomajortrends:thedataexpansionandthedepthofdataanalysi

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。