基于web日志的连续频繁路径挖掘算法毕业论文

ID：6634410

大小：296.00 KB

页数：13页

时间：2018-01-20

资源描述：

《基于web日志的连续频繁路径挖掘算法毕业论文》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、基于web日志的多元线性回归连续频繁路径挖掘算法1引言web站点的日志数据记录了用户浏览web站点时的大量路径信息，对这些信息的分析有利于网站设计人员掌握用户的爱好和习惯，网站设计人员可以用来对网站的结构进行优化和页面重组．基于web日志，研究频繁浏览路径已成为web日志挖掘的热门课题．目前的挖掘算法主要集中在以下几个问题展开：1.采用什么值作为算法的最基本分析依据，有些算法利用浏览次数作为研究依据，求得的浏览路径不全面；有些算法虽考虑到了浏览时间、浏览次数及浏览内容的长度等因素，采用兴趣度作为

2、算法基本要素，但兴趣度定义比较模糊，不能准确说明用户对网页感兴趣程度；2.采用何种存储结构表示web日志数据文件；有些算法基于矩阵实现挖掘，算法无法表现可重复浏览路径等等．首先考虑web日志中浏览次数,浏览时间和浏览接收字节数等因素，采用线性回归的方式计算用户的浏览兴趣度，得到更全面的兴趣度．其次采用树存储日志中的重复、连续、回溯路径，即只需访问一次数据库，建立完整的浏览路径树．最后采用倒序单子树序列口求得频繁路径．本文基于web日志提出一种新的频繁路径的挖掘算法．首先以线性回归方法求解兴趣度，

3、其次将此兴趣度和页面名称作为最基本要素，建立的web浏览树，此浏览树可以完整地表现出web日志中连续、重复的浏览路径，最后在web浏览树上进行分析挖掘频繁浏览路径。该算法经实验证明能更全面地反映用户兴趣所在，挖掘的频繁浏览路径准确、合理．2算法相关描述2.1线性回归兴趣度2.1.1问题提出对web日志中频繁路径的挖掘首先取决于兴趣度的大小，目前用户浏览兴趣度的求法大多采用兴趣度浏览时间*浏览次数／浏览字节数的方法，这样的兴趣度公式不确切、不全面，说明力不够．求得的浏览兴趣度值差异较大，不易发现其

4、规律．由web日志，我们得知用户对网页感兴趣程度与浏览时间、浏览次数、浏览字节数有关,经实验计算分析，兴趣度与web日志中的三要素线性相关．2.1.2解决方法线性回归方法是一种数学优化技术，它通过最小化误差的平方和找到一组数据的最佳函数匹配．本文利用线性回归误差小，数据计算精度高的特点，计算的兴趣度值更符合实际,能为下一步建立浏览树提供更可信的数据．本文设定浏览兴趣度为因变量y，浏览次数、浏览时间、浏览字节数分别为自变量，采用最小二乘法理论得到多元线性回归方程数学模型为由给定的数据库中一部分数据

5、，求得线性回归系数因而确立回归方程．建立了回归方程后，进行显著性检验，确认建立的回归模型是否很好地拟合了原始数据，即回归方程是否有效，利用残差分析，确定回归方程是否违反了假设理论．检验回归方程有意义后，利用回归方程进行兴趣度的预测．本文中，所有自变量都可由web日志得到，但因变量兴趣度y不能直接得到,于是首要问题是得到固定的y值．兴趣度即用户对网页感兴趣的程度，兴趣度通常可以大致分为四种情况：特别感兴趣，一般感兴趣，偶尔感兴趣，不感兴趣．每种情况均表示一个范围，故不能将其直接定义为某一个具体的数

6、值．我们可以将其按百分制的形式欲以离散化赋值(由实验计算设定经验值)：定义用户最感兴趣的页面的兴趣度为100，其他类兴趣度的取值范围分别为80以上，40～80，20—40，10一20.在线性回归方程中，兴趣度值主观设定为每个兴趣度类别的中间值效果较好．利用LINEST函数计算求得线性回归方程．验证有效后,将web日志数据代入线性回归方程，完成每个浏览页面的浏览兴趣度的预测和计算．2.2web浏览树本文中web浏览树完整记录了web日志的浏览路径信息，树中的每一个结点都是一个浏览页面，每个结点都包

7、括页面内容和页面浏览兴趣度，树中的每棵子树都是沿着同一路径浏览的序列．树中的每一条路径上的结点都可以重复、连续出现,解决了以往路径单一的问题．web浏览树结构描述见图12.3web浏览树的生成建立web浏览树是整个算法的基础．web浏览树从根结点R开始，每添加一个结点时，沿不同路径先查找是否结点已在树中存在，没查找到相应结点，则在此路径中查找到的结点下添加一个新的儿子结点．对于查找到的结点,比较兴趣度,由不同需求可以生成三棵不同浏览树．若选取结点兴趣度最小的，可以生成严格浏览树；若选取结点兴趣度

8、最大的,可以生成理想浏览树；若取兴趣度平均值，可以生成一般浏览树．这样生成的浏览树可以从不同角度反映用户浏览网页情况,使整个算法更有实用价值．算法1描述了一般浏览树的生成算法.以下实例均以一般浏览树为例．算法1web浏览树生成算法输人：web日志转换成的数据表。输出：web浏览树．算法具体描述：假定web日志数据库中有n条记录，算法l需扫描一次数据库，生成web浏览树，时间开销为0(n)．文献[7]建立访问树仅表现浏览页面在web日志记录中出现次数,不能准确反映用户的真实兴趣．本文综合weblo

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 13



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于web日志的连续频繁路径挖掘算法毕业论文

基于web日志的连续频繁路径挖掘算法毕业论文

相关文章

相关标签