欢迎来到天天文库
浏览记录
ID:31360519
大小:116.50 KB
页数:11页
时间:2019-01-09
《基于用户兴趣模型构建与个性化搜索算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于用户兴趣模型构建与个性化搜索算法研究 摘要:为准确有效地识别出用户感兴趣的信息,该文构建了一个简单的基于用户兴趣模型的个性化搜索系统。该系统借助开源搜索引擎Nutch和Solr全文搜索服务器挖掘用户的浏览数据和点击行为,设计基于用户点击行为的个性化PageRank算法,实现了面向用户的个性化搜索。实验过程中,通过和未使用个性化搜索算法的系统比较,实验结果得出:基于用户兴趣模型构建的个性化搜索系统会根据用户兴趣模型和个性化搜索算法对搜索的结果进行优化和排序,能更加注重用户的兴趣体验,可以提高搜索引擎的准确度,使用户对查询结果更加满意。 关键词:用户兴趣模型;个性化搜索;动态更新策略 中
2、图分类号:TP18文献标识码:A文章编号:1009-3044(2016)18-0001-04 1概述 随着Internet技术的快速发展,人们通过Internet可以快速、便捷地获取大量信息。然而,目前存在的搜索引擎仍然存在同步性差、检索方式单一、信息服务方式被动等不足,没有考虑到不同的用户有着各自的兴趣爱好,使查询结果不能根据不同用户进行优化,而个性化搜索可以帮助用户最快最简单地找到自己需要的内容或网站。因此,个性化搜索服务成为当前一个热门的研究课题。11 个性化搜索对于提高搜索信息的准确度具有重要意义,研究人员已做了一些有意义的工作。中南民族大学的张小琴、王晓辉[1]等人对现有的主题
3、信息搜索系统进行了改进,使其具有动态学习功能,能够通过分析用户访问数据来建立用户兴趣模型,并利用该模型对搜索结果进行个性化处理和筛选,从而达到个性化搜索的目的,但是,其由于搜索引擎不能准确理解网页内容的语义,简单的利用词语匹配、统计分析和相关分析等算法在一定程度上会造成理解错误。董富江、杨红等人[2]设计的Web页面个性化搜索系统提出了一个Web页面搜索系统架构,给出了系统中用户个性化信息存储方法。但是,该系统难以使用户有效表达查询需求,导致出现搜索结果不理想的情况。因此,如何建立成熟的用户兴趣模型和个性化结果排序算法已成为个性化服务研究的热门课题。 本文针对目前搜索引擎不能根据不同用户调整
4、搜索页面的缺陷,在现有搜索引擎技术为基础上进行改进,以减少用户使用的复杂度为原则,提出了一种用户兴趣模型,它通过搜集用户浏览页面的历史记录和点击行为,并对传统的个性化搜索算法进行改进,以此来解决目前搜索引擎存在的不足,从而提高搜索引擎的准确度,使用户对搜索结果更加满意。 2相关技术 2.1个性化检索模块11 个性化检索模块可以对各个用户在不同时间段的兴趣爱好,为用户提供更高质量的搜索结果。通常的个性化检索模块主要包括:网络爬虫、索引、查询机、接口模块、个性化模块、过滤器、用户兴趣模型数据分析等。[3]在此基础上,本文增加了个性化排序、个性化模块、用户兴趣模型三个模块,其中个性化排序模块和
5、个性化兴趣库是本模型的关键部分,其功能分别如下: 1)个性化模块:通过用户兴趣库中的数据分析各个用户的查询请求,从而使搜索引擎能够根据不同用户的行为进行相应的数据处理。 2)个性化兴趣库:主要用于存储各个用户的兴趣爱好数据。 3)个性化排序模块:对搜索后的结果重排序,使用户对搜索结果更加满意。 2.2Nutch技术 Nutch[4]是一个开源搜索引擎,主要通过Java来实现,其结构主要由爬虫、索引和搜索三个模块组成。Nutch旨在让使用者能够快速简便地配置高质量的Web搜索引擎。爬虫模块[5]用于为从网络中抓取的网页建立索引,索引模块是其余两个模块的接口,而搜索模块主要利用用户查询的
6、关键词得到搜索结果。 2.3Solr技术 Solr[6]是基于Lucene的共性能的全文搜索服务器,主要通过Java来实现。它利用Lucene的可扩展功能,形成一个单独的高质量的企业级搜素服务器。其可以通过丰富的查询语言实现系统的可扩展性。另外,Solr通过优化信息查询功能,使用户对Web应用程序的开发使用更加便捷,其主要具有垂直搜索、缓存高效灵活、搜索结果高亮显示、分布式搜索、支持数据库导入、易于操作管理等特点。 2.4中文分词技术11 由于计算机不能直接识别搜索到的自然语言,所以必须把搜索结果转换成计算机可理解的格式。在中文文档中,单位是以单个汉字为基础,而在自然语言中,词是最小的
7、、不可分割的数据,因而需要把每个语句分解成有意义的词。所以在处理中文数据时,必须解决中文分词的问题。 目前,IKAnalyzer中文分词系统已经发展到为基于Java的通用分词模块,同时它独立于Lucene,并提供了对Lucene的默认优化实现[7]。它采用特有的“正向迭代最细粒度切分算法”,具有80万字/秒的高速处理能力。另外,针对Lucene全文检索优化的查询分析器IKQueryParser,
此文档下载收益归作者所有