欢迎来到天天文库
浏览记录
ID:59365978
大小:18.00 KB
页数:2页
时间:2020-09-04
《现代信息检索.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第二章:停用词去除停用词好处,词干还原(归一)作用(四点),跳表指针了解就行不用深究,双词索引:两种:双词查询和扩展的双词,位置索引(还原文档的语义信息)->临近式查询,混合索引::临近式查询+双词索引第三章:本章主讲容错、通配符等。前面内容哈希表和树结构的优缺点。通配查询两种做法:看看就行。边际距离算法:用来拼写校正,几种可用的单词间距离算法:编辑距离算法(课堂上重点讲述了),soundex算法自己看看应该不考,编辑距离会考第四章:几个算法理解一下,spim-invert算法考试不考大作业要用第五章:为什么在IR中需要压缩,。。。倒排记录表压缩(关键思想),伽马编码不支持0的编
2、码所以解决方式是对所有ID进行加一处理,考试形式:给一串让写出气vb编码或者伽马编码第六章:为什么要长度归一,长度归一要怎么处理(会考)第七章:了解长度归一化,本章介绍了很多对系统加速的方法(了解胜者表的基本思路会考,静态质量得分概念思路会考)第八章:信息检索评价的指标考,评价指标(召回率、正确率),缓冲池方法估计要考(显然的一个弊端是其召回率不太可靠,但是正确率是比较可靠的),平均正确率这个概念要考,Bpref指标用于相关性判断不完整的这种情况下,NDCG用于多级相关(看看)。本章必考缓冲池,平均正确率等。第九章:查询扩展,相关反馈分类第十一章:BIM模型和BM。。。,了解两个
3、分布:多元贝努力分布和多项式分布,BIM的优缺点本课程分类和聚类没有介绍考试不涉及第十九章:如何对广告排序,重复检测(近似检测)第二十章:不能频率过高的访问同一个网站,第二是一章:两个算法。pagerank算法:静态算法,可以线下计算。hets算法:下周一答疑,下周三考试,六一之前交大作业PageRankvs.HITS§网页的PageRank与查询主题无关,可以事先算好,因此适合于大型搜索引擎的应用。§HITS算法的计算与查询主题相关,检索之后再进行计算,因此,不适合于大型搜索引擎。链接分析算法之PageRank、HITS 1.PageRank算法 它的主要思想是对所有网页根据
4、PageRank值(范围为0-10)进行排序。 网页PageRank的计算基于以下两个基本假设: 1.数量:在Web图模型中,如果一个页面节点接收到的其他网页指向的入链数量越多,那么这个页面越重要。 2.质量:指向页面A的入链质量不同,质量高的页面会通过链接向其他页面传递更多的权重。所以越是质量高的页面指向页面A,则页面A越重要。 优点: 是一个与查询无关的静态算法,所有网页的PageRank值通过离线计算获得;有效减少在线查询时的计算量,极大降低了查询响应时间。 缺点: 1)人们的查询具有主题特征
5、,PageRank忽略了主题相关性,导致结果的相关性和主题性降低,也就是说你无论搜索什么样的主题,得到的结果都是一样的。 2)旧的页面等级会比新页面高。因为即使是非常好的新页面也不会有很多上游链接,除非它是某个站点的子站点。 2.HITS算法 HITS有两个重要概念: 1.Hub页面:指包含了很多指向高质量“Authority”页面的链接网页,比如Hao123 2.Authority页面:指某个领域或者某个话题相关的高质量网页,比如百度 基本思想:相互增强性关系 假设1:一
6、个好的“Authority”页面会被很多好的"Hub"页面指向 假设2:一个好的“Hub”页面会指向很多好的“Authority”页面 步骤:1.选择要集合,从关键字查询的结果页面集合中取出前n个网页(n一般较小) 2.扩展集合base,在root集合的基础上,只要跟root集合有指向关系的都加入base集合中 3.算出base集合中每个页面的Hub值和Authority值(多次迭代,直到稳定) 4.输出结果,将页面根据Authority权值得分由高到低排序,取权值高的若干页面作为响应用户查
7、询的搜索结果输出。 缺点:1.计算效率低,因为HITS算法是与查询有关的算法,所以必须接收到用户查询后实时的进行计算。 2.主题漂移问题,会在base集合中包含部分与查询主题无关的页面,而且他们的Authoriyt值较高 3.易被作弊者操纵结果,比如可以建立一个页面,页面增加指向高质量网页的网址,这样它就可以得到很高的Authority得分。’ 4.结构不稳定,如果base集合中添加删除个别网页或改变少数链接关系
此文档下载收益归作者所有