欢迎来到天天文库
浏览记录
ID:31360560
大小:115.50 KB
页数:10页
时间:2019-01-09
《基于用户兴趣模型的nutch个性化搜索引擎研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于用户兴趣模型的Nutch个性化搜索引擎研究 摘要:针对目前主流搜索引擎个性化程度低的问题,通过分析用户的浏览行为和浏览内容来获取用户的兴趣类别以及关键词,用一组带权重的关键词组成的向量集来表示用户兴趣模型,利用更新算法对模型进行更新与优化。将用户兴趣模型与开源搜索引擎Nutch相结合,加入中文分词组件IKAnalyzer,实现了个性化搜索引擎。进行了传统搜索和个性化搜索对比实验,结果证明,Nutch个性化搜索引擎结果更符合用户兴趣。 关键词:用户兴趣模型;个性化;搜索引擎;Nutch 中图分类号:TP393文献标志码
2、:A文章编号:1006-8228(2015)09-26-03 Researchofpersonalizedsearchenginebasedonuserprofile JiangChong1,FeiHongxiao2,ZhangXiao2 (1.ModernEducationTechnologyCenter,HunanWoman'sVocationalUniversity,Changsha,Hunan410004,China; 2.SchoolofSoftware,CentralSouthUniversityofChi
3、na) Abstract:Inordertoimprovethedegreeofpersonalizationforpopularsearchengine,theuser'sinterestcategoriesandkeywordsweregotbyanalyzinguser'sbrowsingbehaviorandcontent.Userprofilewasrepresentedbyavectorsetwhichconsistedofasetofweightedkeywordsandupdatedbycorrelateda
4、lgorithm.By10embeddinginuserprofileandIKAnalyzer,Nutchbecameapersonalizedsearchengine.Comparativeexperimentswerecarriedoutwiththetraditionalsearchandthepersonalizedsearch.Theresultsshowthat,thepersonalizedsearchenginegotmorerelevantresultwithuserinterestthantraditio
5、nalresearchengineandwasprovedtobeeffective. Keywords:userprofile;personalized;searchengine;Nutch 0引言 飞速发展的互联网在带给人们海量信息的同时,也产生了难以让用户快速准确获取有效信息的问题[1]。目前,占市场主导地位的搜索引擎查询结果仅仅跟用户输入的关键词有关,并未考虑在相同关键字中所隐藏的用户个性化需求。这一类的搜索引擎以自动抓取信息和自动排序查找为主要特征[2]。目前,主流的搜索引擎均未实现面向客户需求和兴趣的个性化搜
6、索。在这种情况下,个性化搜索引擎的研究和发展逐渐兴起。在这一代的搜索引擎中,公认的应该具备的特征是个性化和智能[3]。 为了根据用户需求和兴趣产生搜索结果,搜索引擎需要以用户兴趣模型的构建为基础。本文中采用隐式反馈的方式,通过分析用户的浏览行为和浏览内容,获取用户的兴趣类别和关键词,用一组带权重的关键词组成的向量集表示用户兴趣,利用更新算法对模型进行优化,使用户模型的构建能在指导的条件下进行,实现智能化的搜索。在个性化搜索引擎的实现部分,以Lucene为基础,使用Nutch实现了个性化搜索引擎,以此为实验平台,验证了用户兴趣
7、模型的有效性。10 1用户兴趣模型的建立和应用 通常来说,个性化搜索引擎的结果取决于用户兴趣模型的表示,所以,用户兴趣模型的构建在个性化搜索引擎研究和实现中十分关键[4]。 本文在传统向量空间的基础上,使用一种改进的多层次向量空间模型表示用户兴趣。由于用户兴趣的多样性,对用户的兴趣进行类别划分,可有效减少不同类别之间的相互干扰,提高检索的准确度。具体来说,就是“用户→兴趣类别→兴趣词条”的层状树型结构,如图1所示。 [用户][兴趣类别1][KW11][……][KW1n][……][兴趣类别m][KWm1][……][KWm
8、n] 图1多层次向量空间的用户兴趣模型 在图1中,第一层是用户,第二层是兴趣的类别,第三层由用户兴趣的词条组成。假设有m个领域是用户感兴趣的,那么兴趣模型(InterestProfile)也可以用以下向量来表示: IPro={(C1,H1,Q1,T1),(C2,H2,Q
此文档下载收益归作者所有