基于检索日志检索词推荐探究

基于检索日志检索词推荐探究

ID:46667099

大小:61.50 KB

页数:6页

时间:2019-11-26

基于检索日志检索词推荐探究_第1页
基于检索日志检索词推荐探究_第2页
基于检索日志检索词推荐探究_第3页
基于检索日志检索词推荐探究_第4页
基于检索日志检索词推荐探究_第5页
资源描述:

《基于检索日志检索词推荐探究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于检索日志检索词推荐探究[摘要]为了满足检索用户对推荐服务日益迫切的需求,结合检索词推荐需求研究推荐理论。基于三种典型推荐方法:基于内容的过滤、基于规则的过滤和基于协作的过滤,提出一种检索词的混合推荐方法,并基于检索日志构建一种''脱机预处理和挖掘、联机推荐”的检索词推荐模型。最后,在NSTL嵌入式系统上进行实证研究。基于检索日志数据,以简单检索方式下的检索词推荐为突破口,设计一套原型系统,验证检索词的推荐效果并在原型系统上检验一种改进的BWP方法的效果。[关键词]Web日志挖掘推荐系统个性化最佳聚类数[分类号JTP311G3501引言为了满足用户对信息检索

2、的推荐服务的迫切需求,本文基于三种典型推荐方法一一基于内容的过滤、基于规则的过滤和基于协作的过滤,提出一种检索词的混合推荐方法,并从用户体验角度出发,针对现有研究的不足,构建一套基于检索日志的检索词推荐模型,以NSTL(NationalScienceandTechnologyLibrary)嵌入式系统为实验平台,设计一套推荐效率较高、推荐效果较好的原型系统,提供相似检索词推荐、关联检索词推荐、同类用户检索词推荐三大功能,通过实验检验原型系统。2检索词推荐方法研究推荐所依据的原理是数据挖掘理论。通常,推荐分为基于规则过滤、基于内容过滤、基于协作过滤以及两种方法混

3、合的推荐方法。根据不同的个性化推荐方法,采用的挖掘算法也各不相同。本文以检索词作为推荐对象,同时考虑三种推荐方法,以满足信息检索系统用户丰富的个性化信息服务需求。2.1基于内容的过滤基于内容的过滤推荐技术的特点是:根据用户过去选择项目的特点,系统地为其推荐相似的项目。基于内容的过滤系统的最大缺点是用户模型的建立过度依赖于用户以前选择和点击的具体项目。研究显示,在线推荐系统对用户最有用的价值是为其推荐意想不到的项目,但是,如果只是采用内容相似性方法可能会丢失一些重要实用的关系,这些关系存在于Web对象之间,例如特定环境下上下文中常用Web对象关系发现对象之间存在

4、的关联。2.2基于规则的过滤Forsati等人提出一种基于权重的关联规则算法,该算法是对传统的关联规则算法的扩展,允许交易中的每一个项目分配一个权重以反映用户对该项目的兴趣度。在结果关联规则集里,每一个项目都对应一个权重参数,根据用户的兴趣程度,为每个用户访问的Web页面分配一个时间权重和访问频率权重。实验结果表明,与传统的关联规则方法相比较,这种方法能够客观、有效地表示预测结果,对推荐系统效率有很大改进。但基于关联规则的过滤在挖掘稀有信息方面效率不高。2.3基于协作的过滤基于内容过滤的推荐系统根据商品内容的相似性进行推荐,而协作过滤推荐系统利用了用户的相似性

5、进行推荐。但是,协作过滤技术也有其潜在的严重不足,最大的缺点是缺乏可伸缩性。2.4当前检索词推荐研究的不足当前解决推荐方法不足的研究热点是采用混合推荐算法,目的是提高推荐的精度。Burke提出的方法是混合基于内容和基于协作两种过滤技术,通过丰富变量的方法生成推荐系统,旨在提高推荐的质量。有的混合推荐系统,例如Ardissono等人提出的用户建模和个性化推荐技术,通过收集多种用户偏好的信息,采用多种异构推荐技术予以实现。这种方法越来越多地被用于各种个性化服务研究中,例如,Nima等人关于Q-learning的Web推荐系统研究,Chen等人的混合手机新闻推荐系统

6、的普适访问研究,李秦等人的混合基于内容和基于规则的检索推荐系统研究。但是,仅采用上述一种或两种方式的推荐无法满足用户日益增长的个性化信息服务需求。2.5一种同时采用上述三种方法的混合推荐方法考虑到上述三种推荐方法各自存在一定的局限性,为了使信息检索系统的个性化推荐更加有效,尽可能向用户提供丰富的个性化服务,本文提出一种同时采用上述三种推荐方法的混合方法。在用户检索时,信息检索系统同时向用户推荐基于内容的、基于规则的、基于协作的三种过滤结果,即相似检索词、关联检索词、同类用户检索词。对于信息检索系统用户而言,基于内容的检索词过滤是指用户在使用检索服务时,输入各种

7、感兴趣的检索词,这些检索词中彼此有些是相似度较高的,可以推荐给用户。涉及到的技术包括数据预处理、聚类和推荐。首先要将检索词从服务器日志中清洗出来,进行中英文分词后,得到检索词的最小词集合,停用其中的英文小品词(如:at,in,on)、标点符号等无用的词,得到有效的词集合。为了方便聚类,还需要将有效词集合转化成文本向量,这样就将字符串数据转化成了实数数据。然后,对向量进行聚类,将聚类的结果与原始的检索词对应起来存到数据库中。当用户所输入的检索词与数据库中某类检索词相同时,就向该用户推荐该类检索词中出现频率最高的其他检索词。基于规则的检索词过滤是指同一用户在使用检

8、索服务时,输入的检索词可能具有内在联系

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。