国科大中科院现代信息检索开卷考试用复习

ID：46805326

大小：360.36 KB

页数：7页

时间：2019-11-28

资源描述：

《国科大中科院现代信息检索开卷考试用复习》由会员上传分享，免费在线阅读，更多相关内容在行业资料-天天文库。

1、1.信息检索是什么：给定用户需求返回满足该需求信息的一门学科。通常涉及信息的获取、存储、组织和访问。从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用户信息需求的资料(通常是文档)的过程。“找对象”的学科，即定义并计算某种匹配“相似度”的学科。2.倒排索引对每个词项t,记录所有包含t的文档列表.每篇文档用一个唯一的docID来表示，通常是正整数，如1,2,3…能否采用定长数组的方式来存储docID列表通常采用变长表方式磁盘上，顺序存储方式比较好，便于快速读取内

2、存中，采用链表或者可变长数组方式存储空间/易插入之间需要平衡3.词典和倒排记录表由词典和倒排记录表两部分组成，也会记录词项的出现次数Frequency。开销：记录词项和文档频率，指针指向docID表。如果使用定长数组的词典结构，词项20Byte,文档频率4Byte，指针4Byte。3.1词典，词项还原对检索结果的影响，剔除停用词显著优点根据停用词表，将常见的词从词典中去掉，比如the,a等。减少索引的磁盘占用，压缩索引。但是现代信息检索系统中倾向于不去掉停用词，因为可以使用良好的压缩技术来让停用词占

3、用空间减少，使其在倒排记录表中占用空间比例很少。采用良好的查询优化技术不会增加查询处理的开销。停用词在某些情况下是有意义的。3.2短语查询输入查询作为一个短语整体，而不是用单个的单词作为查询项，用一串字符作为查询内容。所以在用短语查询的时候，需要改进倒排索引的样子：可以用双词索引，每两个连续的词组成短语来索引，比如abc，则ab，bc分别作为两个搜索内容，放到词典里；或者可以用带位置信息的索引，doc1:location1,location2…。4.拼写矫正，编辑距离需要纠错的词有一系列正确的单词形式

4、，需要计算错单词和正确单词之间的距离。用编辑距离表示。编辑距离是两个字符串s1变成s2所需要的操作数目。有插入、删除、替换三种操作（L距离，如果是DL距离加上交换），一种操作后距离+1.右下角是本值，右上角是上面格+1，左下角是左边格+1，左上角是左上角值+x，x：如果行列元素相等=0，不等=15.索引构建首先将文档中的语句分离出单独的单词，再在倒排记录表中写入词项和docID，在之后需要将每个词项按照docID排序，再将重复出现的单词进行合并，拆分成词典和倒排记录表两部分，将统计得到的文档数目fre

5、quency加入。5.11索引压缩将整部词典看做是单一字符串，而后用词项指针指向每个字符的头部。单一字符串方式下按块存储，将4个字符作为一组，公用同一个指针。用前端编码。5.1可变字节码VB设置一个专用位作为延续位，如果间隔表示<7bit，c=1，将间隔编入一个字节的后7位中。否则将高7位放入当前字节中，将c=0，剩下的位数采用同样的方法处理，最后一个字节的c=1。相当于最右边的VB码最高位=1，剩下7位是间距的二进制码，剩下的最高位=0，依次填入。VB编码性能差一点相对于γ编码来说。6.γ编码Γ编码

6、是基于位的编码。伽马编码=长度+偏移。偏移=数字二进制后去掉头部的1，如3的二进制=11，去掉头=1；长度=偏移的长度，用一元码表示。Γ编码不能表示0，所以用γ进行压缩时，实际存储中需要将所有数+1，解码时需要所有数-1.γ编码是无参数的，不需要通过拟合来获取参数。VB编码通常按照字节边界对齐，效率更高。VB是按照字节的，所以效率高。Γ是一种无浪费的编码，效果更好。6.1排序式检索，和布尔检索的区别？布尔查询常常会有过多或者过少的结果，不便于用户查看和查找，需要大量的技巧和训练才能够掌握。排序式检索可

7、以避免产生过多或者过少的结果，大规模的返回结果可以通过排序来避免。7.tfidf为什么考虑文档常数，怎么体现？tf-idf是一种能够反应相关度变化的指标。其中有文档常数N是因为考虑到罕见词的权重，让常见词的权重小于罕见词的权重。同时也要考虑词频增大，相关度也会增大，但是相关度和词频并不是呈现线性关系，故而tf中也出现了对数计算，用的是对数词频w。所以tf-idf是tf和idf的乘积，综合考虑了二者。tf：词项频率，词项在文档出出现的次数。w：是因为考虑到相关度和词频之间并不是呈现线性关系，所以用到了l

8、og对数，以使得在词频上升的情况下，相关度不至于大的离谱。Idf：，df是出现词项t的文档数目，df是和信息量（权重）成反比的值。Idf中df/N表示了词项t在文档集中所占的比例，从而能够按需、按比例的消减其权重。tf-idf：综合了tf和idf的优点而成的指标，兼具二者优点。7.1三种模型对于文档长度的处理方式？解释三种模型对文档长度进行归一是如何体现的？8.未插值的APAP：平均正确率，对不同召回率点上的正确率进行平均。未插值的AP：某个查询有6个相

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 7



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

国科大中科院现代信息检索开卷考试用复习

国科大中科院现代信息检索开卷考试用复习

相关文章

相关标签

国科大 中科院 现代信息检索开卷考试用复习

国科大 中科院 现代信息检索开卷考试用复习

相关文章

相关标签

国科大中科院现代信息检索开卷考试用复习

国科大中科院现代信息检索开卷考试用复习