基于大数据平台的用户搜索日志分析和研究

基于大数据平台的用户搜索日志分析和研究

ID:37062304

大小:5.81 MB

页数:71页

时间:2019-05-16

基于大数据平台的用户搜索日志分析和研究_第1页
基于大数据平台的用户搜索日志分析和研究_第2页
基于大数据平台的用户搜索日志分析和研究_第3页
基于大数据平台的用户搜索日志分析和研究_第4页
基于大数据平台的用户搜索日志分析和研究_第5页
资源描述:

《基于大数据平台的用户搜索日志分析和研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、工程硕士学位论文基于大数据平台的用户搜索日志分析和研究作者姓名梁烜彰工程领域电子与通信工程校内指导教师柯峰副教授校外指导教师林凡高级工程师所在学院电子与信息学院论文提交日期2018年4月10日AnalysisandResearchofUserSearchLogBasedonBigDataPlatformADissertationSubmittedfortheDegreeofMasterCandidate:LiangXuanzhangSupervisor:Prof.KeFengSouthChinaUniv

2、ersityofTechnologyGuangzhou,China分类号:TP391学校代号:10561学号:201521009866华南理工大学硕士学位论文基于大数据平台的用户搜索日志分析和研究作者姓名:梁烜彰指导教师姓名、职称:柯峰副教授申请学位级别:工程硕士工程领域名称:电子与通信工程论文形式:ꇶ产品研发ꇶ工程设计√应用研究ꇶ工程/项目管理ꇶ调研报告研究方向:大数据理论与技术论文提交日期:2018年4月10日论文答辩日期:2018年6月4日学位授予单位:华南理工大学学位授予日期:年月日答辩委员会成

3、员:主席:冯穗力教授委员:薜锋章研究员柯峰副教授黄昭文高工张平教授摘要随着科学技术的不断发展,互联网在生活中的应用越来越广泛,在互联网中的搜索引擎也成为了人们最常使用的工具,用户搜索所产生的用户搜索日志也呈指数增长。在当今社会中,这些用户搜索日志就相当于财富,而如何去处理这些海量的“财富”就成为了一个众多学者关注的焦点。日益兴起的大数据存储和处理技术为解决这些问题提供了方案。以Hadoop平台优良的集群特性为例,其不仅能提供强大稳定的计算能力还拥有高性能的分布式文件存储系统,完全可以应付任何海量数据处理

4、的需求。除此之外,Storm集群和Spark集群也为用户搜索日志的处理提供了新的方案。本文分析了现有的大数据平台框架技术。针对大数据离线数据处理和实时数据处理的需求,结合Hadoop、Storm和Spark的技术特点,提出了多个大数据处理方案,并分析每个方案之间的性能优点缺点。最后将离线处理方案和实时处理方案结合起来分别提出的以Hadoop为主和以Spark为主的综合方案,并分析得出了以Hadoop为主Storm和Spark为辅的最终大数据处理综合方案。本文通过搭建Hadoop平台对搜狗实验室提供用户搜

5、索日志数据进行处理分析,并通过测试不同数据量大小的日志数据分析Hadoop集群的加速比以及Hadoop集群不同节点数量的性能。实验得到搜狗用户的热搜关键词排行和搜狗一天时间段搜索量分布,分析得出搜狗最热搜关键词排行、人名搜索排行、搜索方式分布、搜索类型分布、URL返回排名,用户点击顺序排名。实验结果验证了Hadoop平台实现大数据处理分析的能力,以及良好的集群性能。运用Kmeans聚类算法计算URL返回排名和用户点击顺序,并对比二分Kmeans聚类算法与原始聚类算法的效率。以及通过对比Hadoop和Sp

6、ark以及Storm和SparkStreaming的实验结果,分析了它们之间的性能比较。关键词:用户搜索日志;大数据;Hadoop;数据处理IAbstractWiththedevelopmentofscienceandtechnology,theInternetisbecomingmoreandmorewidelyusedinlife.ThesearchengineoftheInternethasbecomethemostcommonlyusedtool,andtheloggeneratedbyuser

7、searchisincreasingexponentially.Theseusers'searchlogsareequivalenttowealth,andhowtodealwiththesemassive"wealth"hasbecomethefocusofmanyscholars.Thegrowingdatastorageandprocessingtechnologyprovideasolutiontosolvetheseproblems.Takingtheexcellentclusterchara

8、cteristicsoftheHadoopplatformasanexample,itcannotonlyprovideapowerfulandstablecomputingpowerbutalsohaveahighperformancedistributedfilestoragesystem,whichcanmeettheneedsofanymassdataprocessing.Inaddition,StormclusterandSpar

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。