个性化智能元搜索引擎模型研究

个性化智能元搜索引擎模型研究

ID:31983376

大小:2.00 MB

页数:60页

时间:2019-01-30

个性化智能元搜索引擎模型研究_第1页
个性化智能元搜索引擎模型研究_第2页
个性化智能元搜索引擎模型研究_第3页
个性化智能元搜索引擎模型研究_第4页
个性化智能元搜索引擎模型研究_第5页
资源描述:

《个性化智能元搜索引擎模型研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、西南大学硕士学位论文摘要}茼要Internet自诞生以来不断成故,尤其是最近几年更是得到长足发展,功能不断扩展,信息容量呈爆炸性趋势增长,然而在信息极大丰富的同时.用户也面临着信息过载和资源迷向的问题,Internet网络环境下的信息检索于是成了一个新的研究热点。根据专家评测,目前主要搜索引擎返回的相关结果比率不足45%,用户要想获得一个比较全面、准确的结果,就必须反复调用多个搜索引擎。元搜索引擎的出现,在一定程度上解决了这些问题。元搜索引擎技术是一种集成搜索引擎技术。它主要通过成员搜索引擎选择、文本

2、选择、结果融合三个主要步骤来完成信息检索任务,如果系统策略设计得当,成员搜索引擎选择方法合适,那么相对于独立的传统搜索引擎来说,元搜索引擎一般可以达到更高的搜索覆盖率和更好的查询效果。但是元搜索引擎也会面临与传统搜索引擎一样的问题,就是不能对用户进行个性化分析和提供相应的有针对性的服务,而且如果系统的集成策略设计地过于简单和机械化,则元搜索引擎多数情况下并不会取得更好的信息检索效果。本文试图通过设计一个个性化智能元搜索引擎模型来改善传统元搜索引擎所面临的不足。个性化是指模型可以针对不同的用户建立不同的

3、用户兴趣模型,采用兴趣模型将查询定位到用户兴趣领域中并扩展用户查询,能更清晰、准确的表达用户查询{通过用户兴趣模型来过滤和筛选搜索结果,使结果的返回更有针对性。智能是指成员搜索引擎的选择,可以根据成员搜索引擎以往性能表现动态的决定每次的调度策略,选出那些可能对某个特定的领域有良好检索效果的子引擎来参与最终的搜索任务。本文取得了如下研究成果;1.基于Ontology技术的用户兴趣模型构建用户兴趣模型的构建对元搜索引擎的性能表现起着至关重要的作用,本论文研究了现有用户兴趣模型的构建方法,元搜索引擎中采用的

4、兴趣模型大多使用传统的词频法来衡量某个用户的兴趣,用二元组(兴趣词条,兴趣权重)或三元组(兴趣词条,兴趣权重,词条新鲜度)表示,主要通过从用户访问记录中抽取部分主题词作为用户感兴趣的词条,同时计算其出现的概率表达用户对该词条的感兴趣程度,即:兴趣权重。但单使用词条作为用户感兴趣的模型可能会出现用户的兴趣领域相当分散,使用该分散的兴趣模型指导用户查询的针对性不强;同时用该分散的用户必趣模型过滤出的结果可能仍然存在不少不相关结果。为使用户模型能比较集中的反映用户对某领域的兴趣,本文提出用领域Ontolog

5、y来表示用户兴趣,建立的模型包括用户感兴趣的领域以及反映对该领域感兴趣程度的主题词。建立好基于领域Ontology的用户兴趣模型后,用户的查询请求可与主题词相匹配,映射到最相关的领域主题中.使得用户的兴趣范围更明确。2.成员搜索引擎的调度策略本论文首先研究了现有的几种基于定性、基于定量、基于学习法的成员引擎(也称成员数据库)调度策略,基于定性、定量的调度策略需要成员搜索引擎的数据库描述信息,但很西南大学硕士学位论文摘要多成员搜索引擎不愿意提供其搜索引擎的设计信息和统计信息。如果没有足够的数据库描述信息

6、,成员搜索引擎关于给定查询的有用性估计可能不能准确得到,使得基于定性和定量法的成员搜索引擎调度策略变成空中楼阁,无法计算出与查询的相关性。基于现阶段元搜索引擎还难以得到足够数据库描述信息发展的情况,本模型采用基于学>-3的方法。依据领域Ontology的划分情况对Intemet中的信息进行领域的划分,从领域Ontology中选取主题词作为该子类的代表性的词和术语。对于每一个类别代表不同类别信息的训练查询将用来做静态学习,判断成员搜索引擎对该类别的查询效率。训练结束后每个数据库对于每个类别都有一个初始信

7、任因子。模型开始运行阶段采用初始信任因子作为调度依据,随着模型的运行,动态的建立成员引擎的权值向量和相关术语集,用于表示查询词对于该数据库的权值向量以及查询词的相关术语。权值向量和相关术语集积累到一定程度时采用信任因子和权值向量两个指标共同来调度成员搜索引擎,在信任因子排序的基础上再以权值向量作为依据确定成员搜索引擎的调度策略。3.基于聚类的元搜索引擎结果融合策略元搜索引擎的结果融合相当重要,通过融合将多个搜索引擎的结果整合,恰当的融合策略能使多个引擎中用户感兴趣的信息统一排列在前列。本文对现有元搜索

8、引擎文本选择和结果合并方法的研究分析发现与用户最相关的查询结果不一定排列在前面,若文本选择采用直接从成员引擎结果提取前面的结果来融合,可能会丢失不少排在后面的有用信息,同时对结果的合并排列也产生影响;元搜索引擎的目标是将最相关的文档尽可能的排列到前面,而现有的结果排序法大都不能很好地将用户感兴趣的结果聚集成类集中放到一起,而要用户一一到众多的结果中寻找,基于此,本文的结果融合采用如下的策略:将成员引擎的结果汇集到一起,先排除重复链接和无效链接,再对结果聚

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。