欢迎来到天天文库
浏览记录
ID:1395296
大小:3.00 MB
页数:91页
时间:2017-11-11
《基于点击流数据和hadoop的毕业论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于点击流数据和Hadoop的网站访客行为分析毕业论文目录第1章绪论11.1研究背景及意义11.2国内外研究现状41.3本文的研究依据61.3.1网站分析与网站访客行为分析61.3.2网站访客行为分析的依据81.4本文的研究内容131.5本文的组织结构14第2章现有网站访客行为分析技术研究162.1基本命令行和SQL的纯手工分析162.2网站点击分析工具StatViz172.3日志分析统计工具AWStats202.4GoogleAnalytics212.5本章小结22第3章基于Hadoop的网站访客行为
2、分析方案243.1Hadoop应用于网站访客行为分析的相关特性与工具243.1.1HDFS分布式文件系统243.1.2MapReduce分布式计算框架253.1.3Hive数据仓库工具263.2基于Hadoop的网站访客行为分析的可行性分析263.3基于Hadoop的网站访客行为分析的方案设计273.3.1原理与过程273.3.2架构设计283.4方案评估293.5本章小结30III第4章基于传统点击流数据和Hadoop的网站访客行为分析方案的实现314.1数据准备314.2环境准备314.3基于Had
3、oopStreaming的网站日志预处理334.3.1Hive日志表的创建334.3.2日志行的处理逻辑设计334.3.3HadoopStreaming编程实现344.4基于Hive的基本指标统计与分析354.4.1Hive表数据导入354.4.2唯一访客数和访问最多访客364.4.3使用Hive自定义函数处理URL374.4.4唯一资源数和请求最多资源394.4.5网站请求的按日、按小时分布404.5基于MapReduceJavaAPI的会话识别424.5.1会话识别程序的设计424.5.2Mappe
4、r434.5.3Reducer444.5.4Hive会话日志表的创建464.6基于Hive的综合指标的统计与分析474.6.1每日会话数474.6.2进入页面和离开页面484.6.3会话请求数分布504.6.4会话时长分布514.6.5访问频率分布524.7基于GraphViz的网站访问拓扑结构图534.8自动化网站访客行为分析系统的构建584.8.1需求分析与整体设计584.8.2详细设计604.8.3系统实现624.9本章小结64第5章基于扩展点击流数据和Hadoop的网站访客行为分析方案的初步实现
5、665.1传统点击流数据与扩展点击流数据665.2扩展点击流数据的获取技术675.3基于OpenWebAnalytics的扩展点击流数据获取685.3.1OWA架构解析695.3.2扩展点击流数据收集模块的增设725.3.3跟踪代码的部署735.3.4所获扩展点击流数据讨论与准备765.4基于扩展点击流数据的网站访客行为分析的初步探索785.5本章小结81III总结与展望82致谢84参考文献85III武汉理工大学硕士学位论文第1章绪论1.1研究背景及意义2014年是互联网进入中国的第20个年头。这时的中
6、国,人们已经越来越了解互联网。人们习惯于利用它来查看新闻,检索信息,访问企业门户,浏览与购买商品,发表文章和评论等等。互联网越来越成为人们活动的重要场所。在互联网上,为了完成特定的任务,比如购买一件商品,一般有如下操作:1)打开浏览器;2)通过输入网址,打开书签或历史,或在搜索引擎上输入关键词并打开合适的索引,以此进入到一个网站页面;3)滚动页面以查看相应区块的内容;4)移动与点击鼠标以选择特定的文本、文本框或其它元素;5)在超链接上点击鼠标以从一个页面进入到另一个页面;6)在输入框中输入信息;7)点击
7、提交按钮以向网站提交所输入信息;8)关闭标签页或浏览器,离开网站;9)其他操作。上述各类操作中,基于当前普通的技术水平,网站可能感受到访客行为的渠道无非就两个——鼠标操作和键盘操作(至于对访客眼球动作、面部表情等的捕获,技术尚不成熟,不在本文讨论之列)。1)键盘操作远不及鼠标操作频繁;2)键盘操作的结果一般是输入文字,通常跟访客在网站内的行为本身的关系不大;3)所输入的文字一般会进入网站的数据库,如果有需要,完全可以采用其他更加适合的技术进行分析;4)访客所输入文字中包含大量的隐私信息,记录所输入文字涉
8、嫌违犯用户隐私。基于上述四点原因,对键盘操作的记录与分析不在本文以及大多数网站分析系统所考虑的范围之内。在上述一系列的鼠标操作当中,访客的每一个动作都有其来源,也有其影响结果。以前两个操作为例,打开的浏览器的类型能帮助网站分析应尽可能适应何种浏览器,进入网站的方式(流量来源)能帮助网站分析其用户的粘滞程度、网站推广效果及关键词策略。对访客在网站上的鼠标操作(包括鼠标移动、滚动、点击等,并与鼠标操作的上下文如浏览器、网站页面和页面元素等相结合
此文档下载收益归作者所有