现代信息检索.doc

现代信息检索.doc

ID:59365978

大小:18.00 KB

页数:2页

时间:2020-09-04

现代信息检索.doc_第1页
现代信息检索.doc_第2页
资源描述:

《现代信息检索.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第二章:停用词去除停用词好处,词干还原(归一)作用(四点),跳表指针了解就行不用深究,双词索引:两种:双词查询和扩展的双词,位置索引(还原文档的语义信息)->临近式查询,混合索引::临近式查询+双词索引第三章:本章主讲容错、通配符等。前面内容哈希表和树结构的优缺点。通配查询两种做法:看看就行。边际距离算法:用来拼写校正,几种可用的单词间距离算法:编辑距离算法(课堂上重点讲述了),soundex算法自己看看应该不考,编辑距离会考第四章:几个算法理解一下,spim-invert算法考试不考大作业要用第五章:为什么在IR中需要压缩,。。。倒排记录表压缩(关键思想),伽马编码不支持0的编

2、码所以解决方式是对所有ID进行加一处理,考试形式:给一串让写出气vb编码或者伽马编码第六章:为什么要长度归一,长度归一要怎么处理(会考)第七章:了解长度归一化,本章介绍了很多对系统加速的方法(了解胜者表的基本思路会考,静态质量得分概念思路会考)第八章:信息检索评价的指标考,评价指标(召回率、正确率),缓冲池方法估计要考(显然的一个弊端是其召回率不太可靠,但是正确率是比较可靠的),平均正确率这个概念要考,Bpref指标用于相关性判断不完整的这种情况下,NDCG用于多级相关(看看)。本章必考缓冲池,平均正确率等。第九章:查询扩展,相关反馈分类第十一章:BIM模型和BM。。。,了解两个

3、分布:多元贝努力分布和多项式分布,BIM的优缺点本课程分类和聚类没有介绍考试不涉及第十九章:如何对广告排序,重复检测(近似检测)第二十章:不能频率过高的访问同一个网站,第二是一章:两个算法。pagerank算法:静态算法,可以线下计算。hets算法:下周一答疑,下周三考试,六一之前交大作业PageRankvs.HITS§网页的PageRank与查询主题无关,可以事先算好,因此适合于大型搜索引擎的应用。§HITS算法的计算与查询主题相关,检索之后再进行计算,因此,不适合于大型搜索引擎。链接分析算法之PageRank、HITS 1.PageRank算法  它的主要思想是对所有网页根据

4、PageRank值(范围为0-10)进行排序。    网页PageRank的计算基于以下两个基本假设:           1.数量:在Web图模型中,如果一个页面节点接收到的其他网页指向的入链数量越多,那么这个页面越重要。           2.质量:指向页面A的入链质量不同,质量高的页面会通过链接向其他页面传递更多的权重。所以越是质量高的页面指向页面A,则页面A越重要。   优点:        是一个与查询无关的静态算法,所有网页的PageRank值通过离线计算获得;有效减少在线查询时的计算量,极大降低了查询响应时间。   缺点:        1)人们的查询具有主题特征

5、,PageRank忽略了主题相关性,导致结果的相关性和主题性降低,也就是说你无论搜索什么样的主题,得到的结果都是一样的。        2)旧的页面等级会比新页面高。因为即使是非常好的新页面也不会有很多上游链接,除非它是某个站点的子站点。   2.HITS算法         HITS有两个重要概念:            1.Hub页面:指包含了很多指向高质量“Authority”页面的链接网页,比如Hao123            2.Authority页面:指某个领域或者某个话题相关的高质量网页,比如百度     基本思想:相互增强性关系            假设1:一

6、个好的“Authority”页面会被很多好的"Hub"页面指向            假设2:一个好的“Hub”页面会指向很多好的“Authority”页面     步骤:1.选择要集合,从关键字查询的结果页面集合中取出前n个网页(n一般较小)           2.扩展集合base,在root集合的基础上,只要跟root集合有指向关系的都加入base集合中           3.算出base集合中每个页面的Hub值和Authority值(多次迭代,直到稳定)           4.输出结果,将页面根据Authority权值得分由高到低排序,取权值高的若干页面作为响应用户查

7、询的搜索结果输出。     缺点:1.计算效率低,因为HITS算法是与查询有关的算法,所以必须接收到用户查询后实时的进行计算。           2.主题漂移问题,会在base集合中包含部分与查询主题无关的页面,而且他们的Authoriyt值较高           3.易被作弊者操纵结果,比如可以建立一个页面,页面增加指向高质量网页的网址,这样它就可以得到很高的Authority得分。’           4.结构不稳定,如果base集合中添加删除个别网页或改变少数链接关系

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。