链接分析算法之:主题敏感pagerank

链接分析算法之:主题敏感pagerank

ID:5319529

大小:491.59 KB

页数:6页

时间:2017-12-08

链接分析算法之:主题敏感pagerank_第1页
链接分析算法之:主题敏感pagerank_第2页
链接分析算法之:主题敏感pagerank_第3页
链接分析算法之:主题敏感pagerank_第4页
链接分析算法之:主题敏感pagerank_第5页
资源描述:

《链接分析算法之:主题敏感pagerank》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、本文由西安白癜风专科医院http://www.xapfb120.com/收集,转载请注明出处链接分析算法之:主题敏感PageRank前面的讨论提到。PageRank忽略了主题相关性,导致结果的相关性和主题性降低,对于不同的用户,甚至有很大的差别。例如,当搜索“苹果”时,一个数码爱好者可能是想要看iphone的信息,一个果农可能是想看苹果的价格走势和种植技巧,而一个小朋友可能在找苹果的简笔画。理想情况下,应该为每个用户维护一套专用向量,但面对海量用户这种方法显然不可行。所以搜索引擎一般会选择一种称为主题敏感Pa

2、geRank(Topic-SensitivePageRank)的折中方案。主题敏感PageRank的做法是预定义几个话题类别,例如体育、娱乐、科技等等,为每个话题单独维护一个向量,然后想办法关联用户的话题倾向,根据用户的话题倾向排序结果。主题敏感PageRank是PageRank算法的改进版本,该算法已被Google使用在个性化搜索服务中。1.基本思想基本思想:通过离线计算出一个与某一主题相关的PageRank向量集合,即计算某个页面关于不同主题的得分。主要分为两个阶段:主题相关的PageRank向量集合的计

3、算和在线查询时主题的确定(即在线相似度的计算)。2.主题敏感PageRank计算流程1、确定话题分类主题敏感PageRank参考ODP网站(www.dmoz.org),定义了16个大的主题类别,包括体育、商业、科技等。ODP(OpenDirectoryProject)是人工整理的多层级网页分类导航站点(参见图1),在顶级的16个大分类下还有更细致的小本文由西安白癜风专科医院http://www.xapfb120.com/收集,转载请注明出处本文由西安白癜风专科医院http://www.xapfb120.com

4、/收集,转载请注明出处图1ODP首页粒度分类结构,在最底层目录下,人工收集了符合该目录主题的精选高质量网页地址,以供互联网用户导航寻址。主题敏感PageRank采用了ODP最高级别的16个分类类别作为事先定义的主题类型。2、网页topic归属这一步需要将每个页面归入最合适的分类,具体归类有很多算法,例如可以使用TF-IDF基于词素归类,也可以聚类后人工归类。这一步最终的结果是每个网页被归到其中一个topic。3、分topic向量计算在PageRank的向量迭代公式:本文由西安白癜风专科医院http://www

5、.xapfb120.com/收集,转载请注明出处本文由西安白癜风专科医院http://www.xapfb120.com/收集,转载请注明出处即R=q×P*R+(1一q)*e/N(e单位向量)而在主题敏感PageRank中,向量迭代公式为:首先是单位向量e变为了s。而s是这样一个向量:对于某topic的s,如果网页k在此topic中,则s中第k个元素为1,否则为0。注意对于每一个topic都有一个不同的s。而

6、s

7、表示s中1的数量。假设有页面A,B,C,D,假设页面A归为Arts,B归为Computers,C归

8、为Computers,D归为Sports。那么对于Computers这个topic,s就是:假设我们设置阻尼系数q=0.8,而

9、s

10、=2,因此,迭代公式为:本文由西安白癜风专科医院http://www.xapfb120.com/收集,转载请注明出处本文由西安白癜风专科医院http://www.xapfb120.com/收集,转载请注明出处最后算出的向量就是Computers这个topic的rank。如果实际计算一下,会发现B、C页在这个topic下的权重相比上面非Topic-Sensitive的rank会升高

11、,这说明如果用户是一个倾向于Computerstopic的人(例如程序员),那么在给他呈现的结果中B、C会更重要,因此可能排名更靠前。4.在线相似度计算最后一步就是在用户提交搜索时,确定用户的topic倾向,以选择合适的rank向量。主要方法有两种:一种是列出所有topic让用户自己选择感兴趣的项目,这种方法在一些社交问答网站注册时经常使用;另外一种方法利用“用户查询分类器”对查询进行分类,即搜索引擎会通过某种手段(如cookie跟踪)跟踪用户的行为,进行数据分析判断用户的倾向。如图2,假设用户输入了查询请求

12、“乔丹”,查询词“乔丹”隶属于体育类别的概率为0.6,娱乐类别的概率为0.1,商业类别的概率为0.3。图2在线相似度计算本文由西安白癜风专科医院http://www.xapfb120.com/收集,转载请注明出处本文由西安白癜风专科医院http://www.xapfb120.com/收集,转载请注明出处在进行上述用户查询分类计算的同时,搜索系统读取索引,找出包含了用户查询“乔丹”的所有网页,并获得已

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。