资源描述:
《lucene在博客垂直搜索引擎个性化检索中的应用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、您的论文得到两院院士关注软件时空文章编号:1008-0570(2011)02-0217-02Lucene在博客垂直搜索引擎个性化检索中的应用TheuseofLuceneintheblogverticalsearchengine’spersonalizedretrieval上海理工大学)崔晓玲曹春萍王学义(CUIXiao-lingCAOChun-pingWANGXue-yi摘要简要的介绍了博客垂直搜索引擎检索系统的组成详细说明了利用算法进行检索的原理和建立用户兴趣模型:,lucene的算法并对关键操作给出简要的代码,。关键
2、词博客用户兴趣模型检索系统个性化:;;;中图分类号文献标识码:TP391.3:BAbstract:Brieflyintroducethecompositionoftheblogverticalsearchengine’sretrievalsystem.IllustratethetheoryofretrievalbasedontheLucenealgorithmandtheuserinterestmodelalgorithmindetail,andthengivesabriefcodeofkeyoperation.Keyw
3、ords:blog;theuserinterestmodel;retrievalsystem;personalized技引言博客是继Email、BBS、ICQ之后出现的第四种网络交流方式它其实就是一个网页它通常是由简短且经常更新的帖子所,,索引擎的架构提供完整的查询引擎和索引引擎部分文本分析,,引擎。的系统由基础结构封装、索引核心、对外接口部Lucene3分组成。对于外部应用来说索引模块和检索模块,(index)(search)术创组成这些文章涵盖了各类有价值的网络资源它包括个人对日,:常生活、实时新闻、国家大事的一些想
4、法和心得也可以是针对,是主要的外部应用入口。索引模块是系统的重点。主要用于Lucene的源码主要由七个包组成Lucene:(1)analysis:analysis新某一主题和某一领域的研究成果的总结交流。由于博客具有个对需要检索的文本进行分词、过滤等操作它将文本转换为最基,性化、更新时间短和速度快的特点已经成为很多个人、家庭、公本的索引表示单元这些单元决定什么样的文档能匹配查询条,,司、高校和企业交流的重要工具。经过研究发现不同的博客用件。(2)search:负责检索的一个包根据查询条件检索得到结果
,,。户人群只对某一
5、方面的信息感兴趣开发一种满足不同用户的在建立完索引后调用此包中的工具对索引进行检索,,。个性化服务的博客检索是至关重要的事情提供建立索引时的各种操作的建立用于索引管。(3)index:,建立个性化搜索有两种方法一种是对搜索结果进行优化:;一种是利用用户的兴趣信息对搜索结果进行过滤从而达到个,性化的搜索结果。分析博客资源可以发现博客资源本身就是经过有序整理,的信息资源。在组织信息资源时对相同或者相近主题的博客进,行了聚类、分类并根据分类建立标签这些标签可以反映用户,,的兴趣偏好反映不同用户对相同标签的不同兴趣度用户可以,,
6、通过浏览某一主题的博客标签获得相关的资源并根据这些博,客标签某些频繁出现的关键字获知博客用户对哪一类的博客感兴趣从而在检索系统中可以建立某些标签关键字与某一博,客用户的关联。根据此类关联并对检索到的资源的显示顺序进,理。(4)document:类似于关系型数据库的包括索引建立、删除等,表结构用于向提供和的各种操作的支,LuceneDocumentField持。(5)store:支持索引的存储。此包下面的和FSDirectory是。FSDirectory指中最为重要的索引目录RAMDirectoryLucene的是在文件系
7、统中的一个路径。而则是内存中的RAMDirectory一个区域它为提供了常用工具类和。(6)util:一些公用类,Lucene常量类的支持。(7)queryParser:向提供检索时的分析支Lucene持它可以根据用户输入来进行解析自动构建此时的,,Query。2Lucene在博客个性化检索算法中的应用本文主要是以网络中的博客网页为数据源根据博客用户行重新排列当用户输入关键字的时候得到的结果就把此用户,,,的个性化需求利用本身具有的建立索引、检索和查询感兴趣的博客资源显示在前面,Lucene。的功能对博客垂直搜索引擎的检
8、索系统进行个性化设计。它主根据博客的特点本文提出一种首先对博客数据源进行处,要是包括建立用户兴趣模型、建立索引、进行检索查询三部分理建立用户群兴趣模型然后利用全文检索系统建立。,,Lucene索引检索并对结果进行排列从而得到个性化检索的结果3系统的实现和设计
,,,。1全文检索系统Lucene建立用户兴趣模型3.1用