大规模网站日志的并行分析技术研究

ID：35073261

大小：5.64 MB

页数：63页

时间：2019-03-17

资源描述：

《大规模网站日志的并行分析技术研究》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、学校代码：舅＿ＴＰ３ｉＬ密级：公巧ＵＤＣ：００４．６学号：１３１４８９，，，部呵職胃旨；‘１觀苗ｙ片無来兩大＊１燃硕±学位论文大规模网站日志的并行分析技术研究研究生姓名：邵明路导师姓名：崇志宏副教巧申请学化类别工学硕±学仿授予单仿东南大学一２０级学科名称计？机科学与技术论文答辩日期１６年６月１３日二级学科名称学化授予Ｈ期２０１６年６月日答辩委员会丰席徐立揉教巧评阅人２０１６年６月日？乘兩：ｋ營硕±学位论文大规模网站日志的并行分析技

2、术研究：计算机科学与技术专业名称＿：邵明路研究生姓名．导师姓名：祟志宏副教授ＲｅｓｅａｒｃｈｏｎＰａｒａｌｌｅｌＡｎａｌｙｓｉｓＴｅｃｈｎｏｌｏｇｙｏｆＬａｒｅＳｃａｌｅＷｅｂＬｏｇｇＡＴｈｅｓｉｓＳｕｂｍｉｔｅｄ化ＳｏｕｔｈｅａｓｔＵｎｉｖｅｒｓｉｔｙＦｏｒｔｈｅＡｃａｄｅｍｉｃＤｅｇｒｅｅｏｆＭａｓｔｅｒｏｆＥｎｇｉｎｅｅｒｉｎｇＢＹｎ－ＳＨＡＯＭｉｇｌｕＳｕｐｅｒｖｉｓｅｄｂｙＡ－ｓｓｏｃｉａｔｅＰｒｏｆｅ巧ｏｒＣＨＯＮＧＺｈｉｈｏｎｇ

3、ＤｅａｒｔｍｅｎｔｏｆＣｏｍｕｔｅｒＳｃｉｅｎｃｅ＆ＥｎｉｎｅｅｒｉｎｐｐｇｇＳｏｕｔｈｅａｓｔＵｎｉｖｅｒｓｉｔｙＭａ２０１６ｙ东南大学学位论文独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加Ｗ标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示了谢意。研巧生签名：部哪您曰期：ｕｊＬ

4、东南大学学位论文使用授权声明东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和电子文档．可Ｗ采用影印、缩印或其他复制手段保存论文。本人电了文档的内容和纸质一论文的内容相致。除在保巧期内的保密论义外，允许论文彼査阅和借阅，可Ｗ公布（包括Ｗ电子信息形式刊登（）论文的全部内容或中、英文摘要等部分内容。论文的公布包括Ｗ电’子信息形式刊登）授权东南大学研究生院办理。？１导师签名研究生签名部巧Ｍ：巧摘要通过Ｗｅｂ日志分析挖掘用户的行为模式和访问意图，广泛应用于网站的页面推荐和链接结构优化。

5、随着日志数据规横的増长，日志分析的可扩展性技术研究成为日志分析的研巧方向．。频祭模式挖掘是日志分析的基础应用本文侧重研巧集合频巧模式和序列频祭模式挖掘的可扩展性技术方法，分别通过基于磁盘的ＭａｐＲｅｄｕｃｅ平台和基于内存的Ｓｐａｒｋ平台实现海量日志频繁模式的并行挖据，解决日志数据的分割和并行挖掘的负载均衡，Ｗ及分布式环境下大规模候选数据的支持度计数等问题，具体研巧内容包括：一一（１恥ｂ日志－）针对数据预处理的关键阶段事务识别，提出种基于候选路径的事务识别算法，主要思想是用空间换时间，与基于用户访问树的算法相比，将对日志

6、数据的两次遍历降为一次，节省了遍历用户访问树的时间开销。一－（２）研究基于皮缩结构ＦＰＴｒｅｅ的日志集合频蒙模式并行挖掘，提出种近似负载均衡的并行ＦＰ－Ｇｒｏｗｅｍｔ化算法，利用ｉｔ的最大前缀路径长度的上界来衡量挖掘ｉｅｍ的条件模式树的王作量，工作量的近似值用于负载分组，所有计算节点根据分组结果并行地进行数据－ＦＰＧｒｏｗｔｈＦＰ－Ｔｒ库的划分，无ｅｅ了数据。与完全负载均衡的并行算法相比需构建全局，消除划分过程中的单点局限，兼顾了负载的计算分巧和整个计巧过程的负载均衡。３一ａ（）．提出种基于Ｓｒｋ的并行ＡｒｉｏｒｉＡ

7、ｌｌ算法研究日志序列频巧模式的并行挖掘ｐｐ。首先，迭代过程中的数据扫描可Ｗ直接在内存中的ＲＤＤ上进行，不用去扫描硬盘。其次，一Ｌ：Ｊ直接持久化到赃Ｄ，下计算过程中的中间结果也可ｌ步的升算可Ｗ直接从内存中读取数据。最后，对于分布式环境下大规模候选数据的支持度计数问题，提出了基于ｒｅｄｕｃｅ端ｏｉｎ的ｊ数据划分方案ａｅｄｕｃｅ的并行ＡｒｉｏｒｉＡｌｌ，整。与基于ＭｐＲｐ算法相比个计算过程节省了大量的磁盘１０和数据Ｓｈｕｆｌｅ。（４）最后，通过实验验证，基于候选的事务识别方法可ｔＪｌ有效应对大规模日志的事务识别－，近似负载

8、巧衡的并行ＦＰＧｒｏｗ化算法拥有比较好的性能优巧，旦穂定性更好，基于Ｓａｒｉｃ的并行ＡｐｒｉｏｒｉＡｌｌ算法拥有更好的性能和扩展性。ｐ：Ｗ洗日

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 63



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

大规模网站日志的并行分析技术研究

大规模网站日志的并行分析技术研究

相关文章

相关标签