欢迎来到天天文库
浏览记录
ID:38202238
大小:329.77 KB
页数:3页
时间:2019-05-25
《基于查询日志挖掘的网页聚类研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、计算机科学2005Vol.32%.7(增刊H)基于查询日志挖掘的网页聚类研究‘WebDocumentClusteringResearchBased‘QueryLogMining师文清叶晓俊(清华大学软件学院北京100084)AbstractAmethodtoclustertheWebdocumentsthroughminingquerylogsaccumulatedbyWebsearchengineisintroducedinthispaper.IttakesqueryasadditionalfeatureforWebdocumentbesid
2、esitscontent.It'saniterativeproceduretoreinforceWebdocumentclusteringbyqueryrefinement.Experimentalresultsshowtheproposedalgo-rithmnotonlyeffectivelyovercomestheproblemofdatasparsenessinquerylogsbutalsoachievesabigimprove-mentmaccuracy.KeywordsWebdocumentclustering,Queryclus
3、tering,Querylogmining,Iterativerefinementalgorithm日志挖掘的网页聚类算法,在内容之外把查询作为1引宫网页的附加特征向里进行聚类,并通过迭代的方式Web随着信息技术和社会的发展不断扩展和逐步降低查询的稀疏性,以增强网页的聚类效果。丰富,日渐成为人们工作、生活重要的平台和工具以wl:wwwpsx2.com及不可或缺的信息来源。近年来,搜索引擎被广泛q!:ps2地用来从Web空间发现信息,为人们的工作学习带q2:playstation22365488W2:www.psx2codes.com来了极大的便
4、利。82但是目前搜索引擎的准确率仍然较低,提供的q,=:xbox服务和用户的信息需求仍然存在距离,其不足之处0.104w.:www.xbox.com如下:(1)因为不同的用户有着不同的信息需求,都图1查询日志中查询和网页的对应只关注搜索结果中符合某一个主题的一部分。例如对于同一个查询“Windows",有些用户可能希望得到操作系统的信息,有些用户则可能关注家具(窗2迭代修正聚类算法户)的信息;(2)因为绝大多数的查询条件都很简短,我们使用查询作为附加特征进行网页聚类,所平均长度是两个词语[121,所以搜索引攀往往得不到以网页聚类的效果对查询聚类
5、有一定的依赖性。但明确的结果,其中包含多个主题的内容。对搜索结是因为查询长度太短,使用查询词进行聚类效果很果进行聚类分析,按照主题或兴趣的不同将其组织差,需要对查询日志进行挖掘,将查询所指向的网页起来,并为聚类簇合适的命名,使得用户能够一目了作为特征进行聚类,提高查询聚类的效果。然地按照自己的信息需求选择跳过还是进人浏览。从查询日志构造一个“查询一网页”矩阵,但是因所以对于搜索结果的聚类对于方便用户的信息浏为Web空间极其庞大,而且事实上“相似”的查询仅览、提高搜索引擎的服务质量有着很大的作用。仅指向“相似”而非“相同”的网页[15],这导致此
6、矩阵搜索引擎的迅猛发展,为Web上的网络文档提非常稀疏。我们通过迭代修正的方法来解决这个问供了一种十分丰富的“元数据”,那就是与网络文档题;(1)用某种传统方法(例如K-Means)基于内容相关的查询日志。可以假设,用户根据同一个查询将相似的网页聚类在一起,然后使用所指向的网页词所浏览的网络文档是相关的。查询日志包含了查作为特征对查询进行聚类;(2)把聚类后的查询作为询、搜索结果和用户在搜索结果中所点击网页的对附加特征改善网页的相似度,对网页再次进行聚类;应关系,如图1所示。传统的网页聚类算法都是建继而用新的网页聚类信息改善查询的相似度,对查立
7、在单纯的对网页内容的比较上,而查询词和网页询进行再次聚类,这样逐步降低查询的稀疏性来提之间的关联信息则被忽略了。我们提出了基于查询高网页的聚类效果。,)本文得到国家高新技术发展研究计划(编号2003AA413230)支持。师文清硕士研究生,研究方向为软件工程和信息检索;叶晓俊副教授,研究方向为数据库技术、企业建模、企业资源计划管理等..1172.1网页和查询的特征向f表示网页的聚类簇CiIQ,一,Ck步骤:假定查询日志中包含了m个网页和n个查询,1)初始化已聚类次数为0和网页日志特征向量Wk.为0:2)基于公式(1),使用K-means方法对网
8、页进行聚类1,得到我们可以从日志构造一个X.,的“查询一网页”矩阵,K个聚类簇Cl,C=...ICk;X
此文档下载收益归作者所有