现代信息检索.doc

ID：59365978

大小：18.00 KB

页数：2页

时间：2020-09-04

资源描述：

《现代信息检索.doc》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、第二章：停用词去除停用词好处，词干还原（归一）作用（四点），跳表指针了解就行不用深究，双词索引：两种：双词查询和扩展的双词，位置索引（还原文档的语义信息）->临近式查询，混合索引：：临近式查询+双词索引第三章：本章主讲容错、通配符等。前面内容哈希表和树结构的优缺点。通配查询两种做法：看看就行。边际距离算法:用来拼写校正，几种可用的单词间距离算法：编辑距离算法（课堂上重点讲述了），soundex算法自己看看应该不考，编辑距离会考第四章：几个算法理解一下，spim-invert算法考试不考大作业要用第五章：为什么在IR中需要压缩，。。。倒排记录表压缩（关键思想），伽马编码不支持0的编

2、码所以解决方式是对所有ID进行加一处理，考试形式：给一串让写出气vb编码或者伽马编码第六章：为什么要长度归一，长度归一要怎么处理（会考）第七章：了解长度归一化，本章介绍了很多对系统加速的方法（了解胜者表的基本思路会考，静态质量得分概念思路会考）第八章：信息检索评价的指标考，评价指标（召回率、正确率），缓冲池方法估计要考（显然的一个弊端是其召回率不太可靠，但是正确率是比较可靠的），平均正确率这个概念要考，Bpref指标用于相关性判断不完整的这种情况下，NDCG用于多级相关（看看）。本章必考缓冲池，平均正确率等。第九章：查询扩展，相关反馈分类第十一章：BIM模型和BM。。。，了解两个

3、分布：多元贝努力分布和多项式分布，BIM的优缺点本课程分类和聚类没有介绍考试不涉及第十九章：如何对广告排序，重复检测（近似检测）第二十章：不能频率过高的访问同一个网站，第二是一章：两个算法。pagerank算法：静态算法，可以线下计算。hets算法：下周一答疑，下周三考试，六一之前交大作业PageRankvs.HITS§网页的PageRank与查询主题无关，可以事先算好，因此适合于大型搜索引擎的应用。§HITS算法的计算与查询主题相关，检索之后再进行计算，因此，不适合于大型搜索引擎。链接分析算法之PageRank、HITS 1.PageRank算法　　它的主要思想是对所有网页根据

4、PageRank值（范围为0-10）进行排序。网页PageRank的计算基于以下两个基本假设： 1.数量：在Web图模型中，如果一个页面节点接收到的其他网页指向的入链数量越多，那么这个页面越重要。 2.质量：指向页面A的入链质量不同，质量高的页面会通过链接向其他页面传递更多的权重。所以越是质量高的页面指向页面A，则页面A越重要。优点：是一个与查询无关的静态算法，所有网页的PageRank值通过离线计算获得；有效减少在线查询时的计算量，极大降低了查询响应时间。缺点： 1）人们的查询具有主题特征

5、，PageRank忽略了主题相关性，导致结果的相关性和主题性降低,也就是说你无论搜索什么样的主题，得到的结果都是一样的。 2）旧的页面等级会比新页面高。因为即使是非常好的新页面也不会有很多上游链接，除非它是某个站点的子站点。 2.HITS算法 HITS有两个重要概念： 1.Hub页面：指包含了很多指向高质量“Authority”页面的链接网页,比如Hao123 2.Authority页面：指某个领域或者某个话题相关的高质量网页，比如百度基本思想：相互增强性关系假设1：一

6、个好的“Authority”页面会被很多好的"Hub"页面指向假设2：一个好的“Hub”页面会指向很多好的“Authority”页面步骤：1.选择要集合，从关键字查询的结果页面集合中取出前n个网页（n一般较小) 2.扩展集合base,在root集合的基础上，只要跟root集合有指向关系的都加入base集合中 3.算出base集合中每个页面的Hub值和Authority值(多次迭代，直到稳定) 4.输出结果，将页面根据Authority权值得分由高到低排序，取权值高的若干页面作为响应用户查

7、询的搜索结果输出。缺点：1.计算效率低，因为HITS算法是与查询有关的算法，所以必须接收到用户查询后实时的进行计算。 2.主题漂移问题，会在base集合中包含部分与查询主题无关的页面，而且他们的Authoriyt值较高 3.易被作弊者操纵结果，比如可以建立一个页面，页面增加指向高质量网页的网址，这样它就可以得到很高的Authority得分。’ 4.结构不稳定，如果base集合中添加删除个别网页或改变少数链接关系

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 / 2



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

现代信息检索.doc

现代信息检索.doc

相关文章

相关标签