欢迎来到天天文库
浏览记录
ID:27721620
大小:100.18 KB
页数:4页
时间:2018-12-05
《中国科学院大学现代信息检索2013年试题》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、信息检索13年试题汇总一、判断题(2分*15题)1、查询和信息需求是完企等价的。()2、不论对于什么语言来说,词干还原基本上都不会较大规模提岛信息检索的效果。()3、基于跳表的倒排记录表合并不一定比普通倒排表合并要快。()4、轮排索引通常采用B树来存储。()5、编辑距离的计算路径有且仅有一条。()6、索引压缩的唯一目的就是为了节省硬盘空间。()7、句量空间模型屮查询和文档都映射到同一空间。()8、文档的静态质量得分与查询和文档都相关。()9、在信息检索的评价当中,宏平均更关注相关结果很多的“大”查询。()10、BIM概率检索模型当巾耑要佔计2M个参数,其中M是词汇表的大小。()11、朴素贝
2、叶斯方法青雀预测了文档属于某个类别的概率。()12、SVM屮的核函数就是从原始空间到新空间的映射函数。()13、HAC层次聚类算法的结果均具有确定性。()14、PageRank计算是否收敛与初始值设置有关。()15、原始HITS算法是查询相关的。()二、选择题(单选或则多选,2分*8题)1、关于词项和词条,以下叙述正确的是()A)词项可以不是词条B)词项的数目一般小于词条C)词项不能是停川词D)词条不能使用单词的复数形式2、关于倒排索引,以下叙述正确的是()A)词典部分只能采用二叉树来组织B)倒排记录表不一定按我呢当ID排序C)词典所A空间往往地狱倒排记录表空间D)构建过程一定全部可以在内
3、存中完成3、关于查询似然模型QLM,—下叙述正确的是:A)模型计算中只有一种平滑方法B)经过jM平滑后所有概率参数都大于零C)计算的是文档的一元模型D)文档中词项出现次数越多最后的概率参数(看不淸)4、关于信息检索的评价,以下叙述正确的是()A)正确率和召冋率可以同时提高B)MAP—定代表了用户真实的满意程度C)NDGG不能基于二值相关度计算D)任何情况下正确率和召回率都无法精确计算5、关于特征选择,以下叙述正确的是()A)只能提高分类效率,不能提高分类效果B)可以同时提高分类效率和效果C)效用函数定义了特征对分类的贡献D)最优的特征数目与具体应用无关6、关于朴素贝叶斯分类器,以下叙述正确
4、的是()A)朴素W叶斯中只有一个条件独立性假设B)实现时可以采用多项式模型或W努利模型C)训练时间是线性的(相对于训练集大小)D)分类时间复杂度是线性的(相对于测试集大小)7、关于SVM分类器,以下叙述正确的是()A)该分类器不需要训练B)该分类器通常分类效果不错C)分类时只和支持向量有关D)无法处理非线性情况8、关于HAC聚类算法,以下叙述正确的是()A)聚类结果取决于簇向量相似度定义B)单连接算法会受离群点影响C)全连接方法会导致链式问题D)质心聚类会产生相似度颠倒现象三、计算题(6分*5题)1、而对两个正确答案集合分别是Rqi={dl,d2,d3,d4}及Rq2={d2,d4,d6,
5、d7,d8}的查询ql,q2,某个系统A返回的检索结果如表1所示,试计算出该系统对毎一查询的P、R、F、P@10>AP等指标,并计算整个系统的MAP指标。请写出计算过程并将最后结果汇总填入表2中(小数点后保留2位即可)。其中AP采用未差值方法。系统•查询返回结果数正确结果位置A•ql202-d2;4-d4;10-dlA•q2202-d5;10-d8;12-d92、假设某个文档集中包含如下3篇文档:(1)+dl:Thisplanemodelminiaturestheairplane(2)+d2:Hedraftedthemodeloftheatomicwarhead(3)+d3:Theplan
6、edefiedthelawsofgravity估计每篇文档的模型时采用的是MLE估计的两个一元模型的混合(参考例12-3),其中一个来自文档而另一个来自文档集,即,且,混合参数又=0.8,假定查询q为planemodel,请计算并填入下表格。计算项Pxx(plane
7、Md)P(plane
8、d)Pxx(model
9、Md)P(model
10、d)P(q
11、d)dld2d33、试证明Rocchio分类方法在二类情况下是一个线性分类器,即其分类面可以表示成线性方程。4、5、假设有图屮三角形和圆形两类数据,某个聚类方法在该数裾集上得到的结果如下图所示(聚类方法将左图和右图判定为两类),分别H•算该聚类结果
12、的纯度和兰徳指数值左边图:四个三角形,一个圈圈右边图:四个阅阅,两个三角形P4、应用题(8分*3题)1、有一个称为“话题发现与跟踪“的任务,其目的是:首先,从一大堆文档中发现可能感兴趣但事先位置的某个话题(比如:近期发生的某个热点话题。话题可以看成一系列文档的集合);然后,用户指定某个感兴趣的话题,对该话题进行长期跟踪。是利用本课程学到的文本聚类和分类技术来实现该任务,给出你的思路的详细步骤(问题到文本聚类或分类问题的映
此文档下载收益归作者所有