基于用户反馈的个性化检索技术.ppt

基于用户反馈的个性化检索技术.ppt

ID:51081812

大小:439.50 KB

页数:40页

时间:2020-03-18

基于用户反馈的个性化检索技术.ppt_第1页
基于用户反馈的个性化检索技术.ppt_第2页
基于用户反馈的个性化检索技术.ppt_第3页
基于用户反馈的个性化检索技术.ppt_第4页
基于用户反馈的个性化检索技术.ppt_第5页
资源描述:

《基于用户反馈的个性化检索技术.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、综合考试: 基于用户反馈的个性化 检索技术龚笔宏2006-11内容安排个性化检索如何获得反馈?如何使用反馈?如何评价反馈?21.个性化搜索个性化搜索(“personalizedsearch”)的定义通用搜索引擎:将所有人一致认同的”相关度”认为是单个用户的相关度;唯一的一个相关度计算方法个性化搜索:针对个人的“相关度”,每个用户都有自己的一套独特的相关度计算方法个性化搜索的优点极大的提高了搜索的精度提供了更好的方式来确定用户检索意图(而不是仅仅靠检索词的方式)31.个性化搜索(2)个性化搜索通常包含2个部分搜集用户的行为,挖掘并建立用户的档案

2、(profile)利用用户的档案完成所需功能根据个性化搜索所完成的功能划分过滤推荐(filter&recommendation)重排序(Re-ranking)特殊搜索(desktopsearch;ftpsearch)41.个性化搜索(3)根据“搜集用户信息”策略的不同,又可进行如下划分用户参与用户指定所需信息类别用户指定相关网页用户指定相关词无用户参与Contextsearch(搜集用户上下文的相关信息)WebUsageminingImplicit/pseudo用户反馈51.个性化搜索(4)功能划分用户参与过滤Filter重排序Re-rank

3、ing特殊搜索用户参与GrouplensSmart/ODPsearchY!Q(yahoo)Fame无用户参与WebPersonalizer大部分的E-commenceOutriderGooglepsearch天网千帆StuffI'veSeen61.个性化搜索(5)71.个性化搜索(6)客户端vs.服务器端客户端优点缺点服务器端优点缺点(1)所有的用户信息都存储在客户端,不用担心用户的隐私问题。(2)所有的重排序计算也在客户端,不对服务器造成压力。(3)客户端可以搜集更多的用户信息缺乏全局的内容用户往往懒于安装客户端。(1)无需安装客户端,整个

4、个性化的过程对用户是透明的。(2)拥有所有用户的个性化信息,因此可以有全局的统计信息,就有可能根据全局或是其他用户的信息来改进排序(1)用户会担心自己的隐私安全。(2)给服务器端带来了很大的计算压力。(3)只能搜集用户在页面上的行为来挖掘用户的兴趣,更多其他的用户行为无法探测。81.个性化搜索之相关反馈为什么需要相关反馈?“好的”查询的定义用户构造的查询词通常含义模糊,原因有很多相关反馈的定义用户对检索出的文档进行显式或隐式的相关性判定,系统根据这些判断对查询进行处理,重新检索从而提高最终结果的质量。历史91.个性化搜索之相关反馈相关反馈的优

5、点:只需要用户对文档进行相关性判断,而隐藏了查询处理的细节将搜索任务分割成若干个容易被用户理解的部分提供了一种用户可控制的过程来改进检索结果所涉及的技术领域10112.如何获得反馈显式用户反馈(explicitfeedback)隐式用户反馈(implicitfeedback)伪用户反馈(Pseudofeedback)122.1显式用户反馈一个前提是:用户在检索期间是有一个明确的检索目的,而这一目的不会变更如何显式获得用户反馈把检索结果按照相似度的大小排序之后返回给用户,用户显式的对结果进行标记实现简单,且能够保证得到的信息是来自用户的真实意图

6、给用户增加了许多额外的负担,因此实用性大打折扣。132.1显式用户反馈(2)-主动反馈主动反馈(Activefeedback)在用户反馈前,对结果进行一些预处理并选择其中的部分文档集展示给用户进行反馈,以保证这些反馈文档能带来最大的信息增益TopK(传统的显式用户反馈)GappedTopK(间隔的挑选文档作为反馈)Kclustercentroid(将初始检索结果集进行聚类,以聚类中心展示给用户进行反馈)。142.2隐式用户反馈隐反馈(implicitfeedback)从用户的日常行为(即日志)中分析得到一些有用的信息作为反馈来改进检索质量。常

7、用的主要分析做法有关联规则挖掘聚类算法加权tf-idf想法时间窗口各种的去躁降维方法语言模型几乎都是heuristically15162.2隐式用户反馈(3)所有这些因素都同等有效么?不是的!不过所有的用户行为都是有效的反馈信息!经过关联性分析,“保存”,“拷贝”这2个行为于用户的兴趣并没有关系有很多因素会影响这些隐反馈的质量,以“点击”为例trustbiased.排序高的文档会被用户多点击,即使并不相关。qualitybiased.点击还依赖于其他返回摘要的质量172.3伪反馈(pseudofeedback)伪反馈假设排序靠前的n个文档为相

8、关文档,将其作为反馈文档(伪反馈文档)进行计算好的更好,坏的更坏查询偏移(Querydrift.)查询偏移是指,检索结果偏离用户的初始检索意图。.解决办法提高初始排

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。