基于web用户兴趣的聚类模型挖掘与分析

基于web用户兴趣的聚类模型挖掘与分析

ID:12619095

大小:150.50 KB

页数:29页

时间:2018-07-18

基于web用户兴趣的聚类模型挖掘与分析_第1页
基于web用户兴趣的聚类模型挖掘与分析_第2页
基于web用户兴趣的聚类模型挖掘与分析_第3页
基于web用户兴趣的聚类模型挖掘与分析_第4页
基于web用户兴趣的聚类模型挖掘与分析_第5页
资源描述:

《基于web用户兴趣的聚类模型挖掘与分析》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基于Web用户兴趣的聚类模型挖掘与分析//.paper.edu-1-基于Web用户兴趣的聚类模型挖掘与分析1陈健荣1,吕雪蕊21中山大学信息科学与技术学院,广东广州(510275)2广东省潮州市龙湖医院,广东潮州(521000)摘要:用户兴趣的评估因素有多方面,无论单独从哪个方面都无法得到完整的模型。本文综合考虑了三个核心因素,首先对用户浏览过的页面进行内容分析,并根据主题信息对页面进行聚类;在聚类的过程中除了考虑页面内容的相近程度外还辅以页面路径进行归类判断。在最后得到页面的兴趣簇时将用户的浏览行为对其兴趣的作用列入其中,从而得到综合的评估模型。实践表明此种方式能更准

2、确的反映用户的真实兴趣。关键词:聚类模型,用户兴趣,Web数据挖掘,知识发现中图分类号:TP311文献标识码:A1引言随着因特网越发深入人们的生活,准确的挖掘用户兴趣将变得非常有意义,它可以使得人们在浩瀚的网络中迅速的找到志同道合者进行交流,从而促进知识的传递。对用户兴趣特征的刻画有加权矢量、类型层次结构、加权语义网、书签和目录结构等模型[1],而根据用户是否参加可分为显示与隐式两种。由于显示挖掘需要用户主动参与,这很大程度上降低了可用性,并同时带来系统噪音,为了保证挖掘结果的准确性以及提高用户接受度,一般采用隐式数据挖掘。目前对用户兴趣的挖掘方式有多种,其中有基于浏览

3、内容和行为相结合的方式,如文献[2],也有单纯从用户行为的历史信息寻找隐藏规律的。用户会话作为用户行为信息的基本单位,对其聚类是从行为历史中发现用户兴趣的基础工作,因而它自然而然成为重要的分析对象。而对用户会话分析主要采用的是相似性测量方法,基于相同浏览权值的相似性测量方法主要包括文献[3-6]所提出的4种,即Usage-based,Frequency-based,Viewing-Time-based以及Visiting-Order-based。其中VTB用的最广泛,同时这些方法均假设页面是不相关的而只比较不同会话在相同页面的浏览权值,不考虑页面之间的相似性。事实上,文

4、献[7]中提到,即使不考虑页面的内容,单纯考虑页面的路径也可以发现不同的页面之间存在相似性。本文并不单纯从一个方面来分析用户的兴趣,而是综合多种方式、从多角度来建立用户的兴趣模型。首先将用户所访问的页面进行内容挖掘从而得到用矢量方法表示的页面兴趣,在此基础上结合页面URL相似性对页面距离的贡献对页面进行聚类;接着,根据聚类结果考虑用户作用在页面上的行为提取出突出特征从而形成用户兴趣。2用户兴趣挖掘方式2.1兴趣界定在分析用户兴趣之前,我们首先对用户兴趣进行界定,即用户由什么组成、影响因素有哪些。一般地,用户对Web文档的访问是有目的的行为,这种行为的动机可以分为稳定兴趣

5、和偶然兴趣。稳定兴趣是指一个人具有持久的兴趣倾向,偶然兴趣是指一个人由于临时需要或其他原因对某事物产生的偶然兴趣,每个人的偶然兴趣可以认为是随机变化的。但在日志陈健荣(1983-),男,硕士研究生,主要研究方向为数据库与知识库,工作流平台。//.paper.edu-2-中用户的兴趣具有集中性,这说明用户由稳定兴趣驱动访问Web的频率远远高于偶然兴趣的驱动,因此一定时间段的Web访问日志中一定蕴含了用户的稳定兴趣。可以这么认为,用户的兴趣由其浏览过的大量页面的兴趣综合而成。其中“页面兴趣”定义如下:设有页面共有N个主题,所有主题都用数字权值来表示其突出程度,越突出的主题其

6、权值越大,其中第i个主题的权值用iC来表示。设所有主题的权值之和为m,权值Ci按从大到小排列,即12iCCC≥≥L,若0()/80%kiiCm=≥∑,那么主题1~k为突出主题,我们称这前k个主题为该页面的兴趣。我们可根据同样的原理来表示用户的兴趣,文献[8]便是采用此种方式。2.2兴趣挖掘流程Web挖掘过程一般包括相关网页采集、文本预处理、文本模型表示、信息或文本特征性抽取、文本分类(聚类)或结果集的数据挖掘等步骤以得到结果从而极大程度的方便用户有效地浏览和获取信息[9]。本文提出的用户兴趣挖掘中最核心的步骤是对页面兴趣的挖掘,其大致过程如下:首先捕获用户访问的URL并

7、对URL进行预处理,主要是去除视频、音频以及无效链接,然后根据“干净”的URL提取对应的页面文本,接着对文本中的关键主题进行分析得到页面的兴趣。其流程图如图1所示:图1页面兴趣挖掘流程用户的兴趣在页面兴趣挖掘的基础上综合其他信息进行分析,其中主要考虑了页面路径的相似性、用户在页面上的浏览时间以及点击次数,我们用图2的流程来表示:图2用户兴趣挖掘流程3用户兴趣模型分析3.1Web内容挖掘(一)页面主题表示研究页面的主题表示方式目的在于能用形式化的方式来表示页面兴趣,进而计算页面间的距离并最终为挖掘用户兴趣服务。但是Web页面不像关系数据库那

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。