大规模网站日志的并行分析技术研究

大规模网站日志的并行分析技术研究

ID:35073261

大小:5.64 MB

页数:63页

时间:2019-03-17

大规模网站日志的并行分析技术研究_第1页
大规模网站日志的并行分析技术研究_第2页
大规模网站日志的并行分析技术研究_第3页
大规模网站日志的并行分析技术研究_第4页
大规模网站日志的并行分析技术研究_第5页
资源描述:

《大规模网站日志的并行分析技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学校代码:舅_TP3iL密级:公巧UDC:004.6学号:131489,,,部呵職胃旨;‘1觀苗y片無来兩大*1燃硕±学位论文大规模网站日志的并行分析技术研究研究生姓名:邵明路导师姓名:崇志宏副教巧申请学化类别工学硕±学仿授予单仿东南大学一20级学科名称计?机科学与技术论文答辩日期16年6月13日二级学科名称学化授予H期2016年6月日答辩委员会丰席徐立揉教巧评阅人2016年6月日?乘兩:k營硕±学位论文大规模网站日志的并行分析技

2、术研究:计算机科学与技术专业名称_:邵明路研究生姓名.导师姓名:祟志宏副教授ResearchonParallelAnalysisTechnologyofLareScaleWebLoggAThesisSubmited化SoutheastUniversityFortheAcademicDegreeofMasterofEngineeringBYn-SHAOMigluSupervisedbyA-ssociateProfe巧orCHONGZhihong

3、DeartmentofComuterScience&EnineerinppggSoutheastUniversityMa2016y东南大学学位论文独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加W标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示了谢意。研巧生签名:部哪您曰期:ujL

4、东南大学学位论文使用授权声明东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和电子文档.可W采用影印、缩印或其他复制手段保存论文。本人电了文档的内容和纸质一论文的内容相致。除在保巧期内的保密论义外,允许论文彼査阅和借阅,可W公布(包括W电子信息形式刊登()论文的全部内容或中、英文摘要等部分内容。论文的公布包括W电’子信息形式刊登)授权东南大学研究生院办理。?1导师签名研究生签名部巧M:巧摘要通过Web日志分析挖掘用户的行为模式和访问意图,广泛应用于网站的页面推荐和链接结构优化。

5、随着日志数据规横的増长,日志分析的可扩展性技术研究成为日志分析的研巧方向.。频祭模式挖掘是日志分析的基础应用本文侧重研巧集合频巧模式和序列频祭模式挖掘的可扩展性技术方法,分别通过基于磁盘的MapReduce平台和基于内存的Spark平台实现海量日志频繁模式的并行挖据,解决日志数据的分割和并行挖掘的负载均衡,W及分布式环境下大规模候选数据的支持度计数等问题,具体研巧内容包括:一一(1恥b日志-)针对数据预处理的关键阶段事务识别,提出种基于候选路径的事务识别算法,主要思想是用空间换时间,与基于用户访问树的算法相比,将对日志

6、数据的两次遍历降为一次,节省了遍历用户访问树的时间开销。一-(2)研究基于皮缩结构FPTree的日志集合频蒙模式并行挖掘,提出种近似负载均衡的并行FP-Growemt化算法,利用it的最大前缀路径长度的上界来衡量挖掘iem的条件模式树的王作量,工作量的近似值用于负载分组,所有计算节点根据分组结果并行地进行数据-FPGrowthFP-Tr库的划分,无ee了数据。与完全负载均衡的并行算法相比需构建全局,消除划分过程中的单点局限,兼顾了负载的计算分巧和整个计巧过程的负载均衡。3一a().提出种基于Srk的并行ArioriA

7、ll算法研究日志序列频巧模式的并行挖掘pp。首先,迭代过程中的数据扫描可W直接在内存中的RDD上进行,不用去扫描硬盘。其次,一L:J直接持久化到赃D,下计算过程中的中间结果也可l步的升算可W直接从内存中读取数据。最后,对于分布式环境下大规模候选数据的支持度计数问题,提出了基于reduce端oin的j数据划分方案aeduce的并行ArioriAll,整。与基于MpRp算法相比个计算过程节省了大量的磁盘10和数据Shufle。(4)最后,通过实验验证,基于候选的事务识别方法可tJl有效应对大规模日志的事务识别-,近似负载

8、巧衡的并行FPGrow化算法拥有比较好的性能优巧,旦穂定性更好,基于Saric的并行AprioriAll算法拥有更好的性能和扩展性。p:W洗日

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。