国科大 中科院 现代信息检索开卷考试用复习

国科大 中科院 现代信息检索开卷考试用复习

ID:46805326

大小:360.36 KB

页数:7页

时间:2019-11-28

国科大 中科院 现代信息检索开卷考试用复习_第1页
国科大 中科院 现代信息检索开卷考试用复习_第2页
国科大 中科院 现代信息检索开卷考试用复习_第3页
国科大 中科院 现代信息检索开卷考试用复习_第4页
国科大 中科院 现代信息检索开卷考试用复习_第5页
资源描述:

《国科大 中科院 现代信息检索开卷考试用复习》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、1.信息检索是什么:给定用户需求返回满足该需求信息的一门学科。通常涉及信息的获取、存储、组织和访问。从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用户信息需求的资料(通常是文档)的过程。“找对象”的学科,即定义并计算某种匹配“相似度”的学科。2.倒排索引对每个词项t,记录所有包含t的文档列表.每篇文档用一个唯一的docID来表示,通常是正整数,如1,2,3…能否采用定长数组的方式来存储docID列表通常采用变长表方式磁盘上,顺序存储方式比较好,便于快速读取内

2、存中,采用链表或者可变长数组方式存储空间/易插入之间需要平衡3.词典和倒排记录表由词典和倒排记录表两部分组成,也会记录词项的出现次数Frequency。开销:记录词项和文档频率,指针指向docID表。如果使用定长数组的词典结构,词项20Byte,文档频率4Byte,指针4Byte。3.1词典,词项还原对检索结果的影响,剔除停用词显著优点根据停用词表,将常见的词从词典中去掉,比如the,a等。减少索引的磁盘占用,压缩索引。但是现代信息检索系统中倾向于不去掉停用词,因为可以使用良好的压缩技术来让停用词占

3、用空间减少,使其在倒排记录表中占用空间比例很少。采用良好的查询优化技术不会增加查询处理的开销。停用词在某些情况下是有意义的。3.2短语查询输入查询作为一个短语整体,而不是用单个的单词作为查询项,用一串字符作为查询内容。所以在用短语查询的时候,需要改进倒排索引的样子:可以用双词索引,每两个连续的词组成短语来索引,比如abc,则ab,bc分别作为两个搜索内容,放到词典里;或者可以用带位置信息的索引,doc1:location1,location2…。4.拼写矫正,编辑距离需要纠错的词有一系列正确的单词形式

4、,需要计算错单词和正确单词之间的距离。用编辑距离表示。编辑距离是两个字符串s1变成s2所需要的操作数目。有插入、删除、替换三种操作(L距离,如果是DL距离加上交换),一种操作后距离+1.右下角是本值,右上角是上面格+1,左下角是左边格+1,左上角是左上角值+x,x:如果行列元素相等=0,不等=15.索引构建首先将文档中的语句分离出单独的单词,再在倒排记录表中写入词项和docID,在之后需要将每个词项按照docID排序,再将重复出现的单词进行合并,拆分成词典和倒排记录表两部分,将统计得到的文档数目fre

5、quency加入。5.11索引压缩将整部词典看做是单一字符串,而后用词项指针指向每个字符的头部。单一字符串方式下按块存储,将4个字符作为一组,公用同一个指针。用前端编码。5.1可变字节码VB设置一个专用位作为延续位,如果间隔表示<7bit,c=1,将间隔编入一个字节的后7位中。否则将高7位放入当前字节中,将c=0,剩下的位数采用同样的方法处理,最后一个字节的c=1。相当于最右边的VB码最高位=1,剩下7位是间距的二进制码,剩下的最高位=0,依次填入。VB编码性能差一点相对于γ编码来说。6.γ编码Γ编码

6、是基于位的编码。伽马编码=长度+偏移。偏移=数字二进制后去掉头部的1,如3的二进制=11,去掉头=1;长度=偏移的长度,用一元码表示。Γ编码不能表示0,所以用γ进行压缩时,实际存储中需要将所有数+1,解码时需要所有数-1.γ编码是无参数的,不需要通过拟合来获取参数。VB编码通常按照字节边界对齐,效率更高。VB是按照字节的,所以效率高。Γ是一种无浪费的编码,效果更好。6.1排序式检索,和布尔检索的区别?布尔查询常常会有过多或者过少的结果,不便于用户查看和查找,需要大量的技巧和训练才能够掌握。排序式检索可

7、以避免产生过多或者过少的结果,大规模的返回结果可以通过排序来避免。7.tfidf为什么考虑文档常数,怎么体现?tf-idf是一种能够反应相关度变化的指标。其中有文档常数N是因为考虑到罕见词的权重,让常见词的权重小于罕见词的权重。同时也要考虑词频增大,相关度也会增大,但是相关度和词频并不是呈现线性关系,故而tf中也出现了对数计算,用的是对数词频w。所以tf-idf是tf和idf的乘积,综合考虑了二者。tf:词项频率,词项在文档出出现的次数。w:是因为考虑到相关度和词频之间并不是呈现线性关系,所以用到了l

8、og对数,以使得在词频上升的情况下,相关度不至于大的离谱。Idf:,df是出现词项t的文档数目,df是和信息量(权重)成反比的值。Idf中df/N表示了词项t在文档集中所占的比例,从而能够按需、按比例的消减其权重。tf-idf:综合了tf和idf的优点而成的指标,兼具二者优点。7.1三种模型对于文档长度的处理方式?解释三种模型对文档长度进行归一是如何体现的?8.未插值的APAP:平均正确率,对不同召回率点上的正确率进行平均。未插值的AP:某个查询有6个相

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。