网页序列分析系统课程设计(论文)

网页序列分析系统课程设计(论文)

ID:11750990

大小:8.50 MB

页数:32页

时间:2018-07-13

网页序列分析系统课程设计(论文)_第1页
网页序列分析系统课程设计(论文)_第2页
网页序列分析系统课程设计(论文)_第3页
网页序列分析系统课程设计(论文)_第4页
网页序列分析系统课程设计(论文)_第5页
资源描述:

《网页序列分析系统课程设计(论文)》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、目录第一章绪论1第二章数据基本分析22.1数据说明22.2质量分析22.3基本描述分析2第三章数据预处理43.1数据处理过程43.2数据预处理方法43.3数据预处理结果6第四章数据模型构建84.1数据流的构建8第五章模型结果分析125.1结果的分析处理125.2结果合理性分析13第六章应用系统设计166.1模型接口166.2人机接口196.3软件测试24结论30参考文献31结束语32第一章绪论由于网站的结构设计,对特定用户而言信息获取的代价与所经过的浏览路径长度成正比,这些位于路径中间的不必要的文档就无疑增加了用户获取信息的代

2、价。本文利用Clementine数据挖掘的方法和技术对用户所访问的页面序列进行挖掘,构建网页推荐的模型,实现对当前站点排序方式的优化,从而最大限度地优化用户访问体验,提高当前站点信息获取的整体效率。[关键词]网页推荐;Clememtine数据挖掘;访问序列 传统的Web网站以系统自身为中心,为了容纳大量的信息,以图结构组织网站,页面之间存在着比较复杂的层次关系。这些预先设计好的浏览路径(网站的结构)严格按照设计者编辑好的层次返回页面,因此,为了获取特定的信息,从同一页面出发的所有用户都不得不重复地经过很多与自己毫无关系的、不希

3、望看到的中间链接页面,使得用户为了获取少量的信息付出较大的代价。如果在确保网页内容的前提下,实现网站物理结构的调整和再组织,就可以避免混乱。站点路径优化实际上就是站点管理者优化其站点结构,它的出现就是为了提高用户的访问效率以及用户对站点的忠诚度。 31第二章数据基本分析2.1数据说明本数据来自网络信息服务(IIS)网站msnbc.com和msn.com1999年9月28日全天日志记录,每行连续数据表示单个用户24小时内浏览网页的记录,连续数据中的数字表示用户对相应网页的浏览请求,该访问请求不会被记录成详细的记录,即具体的网址,

4、而只是单单记录了网页类型。这些网页类型分别是"frontpage","news","tech","local","opinion","on-air","misc","weather","health","living","business","sports","summary","bbs"(bulletinboardservice),"travel","msn-news",and"msn-sports"。通过超高速缓冲器(寄存器)每个网页的服务请求不会被记录到服务日志,因此,它不会体现在数据中。2.2质量分析此次分析的数据总共

5、有989818,平均每个用户点击网页的次数是5.7次,每个不同类型的网页有10到5000个不同的URL(网页地址)。从数据的质量上看,这是一个较大的数据集,数据的量足够大,可以用于数据的挖掘分析,且数据来源于InternetInformationServer(IIS),有足够可信度。用户平均点击网页的数据也有5.7次,适合用于分析点击网页序列,每种类型的网页也有足够多的不同网址,符合客观要求。因此从数据质量上看,所选取的数据有分析的必要。2.3基本描述分析截取部分数据如下:112322422233516116677766888

6、869444103105104441111111131121211每一行代表一个用户所点击的网页,此次选取的数据之中一共有17个不同类型的网页,分别是:frontpagenewstechlocalopinionon-airmiscweathermsn-newshealthlivingbusinessmsn-sportssportssummarybbstravel为了方便处理,将以上各个网页进行编号,分别为1234567891011121314151617。一第三行数据为例对单个用户的数据进行说明。用户3第一次点击3号网页,第二

7、次点击2号网页,第三次点击2号网页,第四次点击4号网页等一次类推下去。每一行都是一个用户的记录31第三章数据预处理3.1数据处理过程此次任务是设计基于网页点击次序来推送下一次可能点击的网页。选取的方法是Clementine的序列关联,所以要将数据处理成Clementine可读取的格式,并且要删减不必要的数据,改写数据的格式,这样才能达到分析处理的要求。结合mnsbc.com提供的数据具体分析:每行数据是一个用户的信息记录,表示的含义是第n号用户点击了哪个网页,是第几次点击的。举出部分数据样例如下:112322422233516

8、1166777668888694441031051044411111111121211因为此次任务是进行序列关联分析,所以用户只进行了一次点击情况的记录可以直接删除,比如样例中2,4,5,6,8号用户。又因为最终要进行的操作是推送下一个可能点击的网页,如果用户只是在不断的点击

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。